1.3.2 工程化设计
设计合成生物学工程化系统所面临的主要挑战在于生物元件复杂性,例如正交性、环境依赖性、稳定性、可预测性等。就正交性来讲,源于自然界的生物元件经常与底盘细胞存在不可预知的干扰,而这样的干扰会影响人工生物系统的性能。良好的正交性即表示元件间或元件与宿主遗传背景间不存在不良相互作用或干扰。
本节将介绍实现合成生物元件、生物装置和系统模块化设计的几个必要步骤,即解耦、抽提和标准化。
1.解耦
耦合是指系统内部各个部分之间存在相互依赖、相互影响、相互制约的情况,而解耦(decoupling)是指将一个复杂系统分解成较为独立的模块(类似于将一个复杂的问题分解成许多较简单的问题),这些模块可以独立工作,但也可以整合起来形成一个有效整体。这里给出解耦的两个代表性例子:在建筑工程领域,一个项目通常被分解成设计、预算、施工、项目管理和监查等可独立处理的任务;在软件工程中,解耦就是减少耦合的过程,即把各代码模块的关联依赖降到最低,让代码更加模块化、灵活、易于维护和扩展。
在合成生物学领域,遵循解耦的思想同样可以处理复杂生物系统的模块化和标准化问题。通过将生物系统解耦成一系列相互独立的模块,我们可以实现标准化模块的快速组装。例如,开发标准化底盘细胞,为搭载于细胞中的任何生物装置提供已知速率的核苷酸、氨基酸和其他资源(类似于电池),而这些与生物装置的细节无关。此外,为了解决生物元件之间以及元件与环境背景之间的干扰问题,我们应在构建生物装置时最大限度地实现“解耦”。具有良好特性的标准化生物元件可以满足“解耦”需求,进而构建包含不同功能或具有不同动力学参数的标准化元件库。当具有多个生物装置或生物系统时,我们应保证中心法则关键过程(复制、转录和翻译)的离散性,例如在基因线路工程中,使用独立的启动子来正交控制多个基因的转录——这可以通过选用具有正交性的转录因子实现。
2.抽提
处理复杂天然生物系统的另一个策略就是抽提。抽提(abstraction)是指研究生物体各个元件的特征、功能等,并进行概括、抽象、总结,然后加以详细表征,以便于更广泛地使用,并使生物系统可以达到预期的功能。
目前主要有两种策略对生物系统进行抽提,如下所示。
(1)用分层次抽提来提取描述生物功能的信息,以降低生物系统的复杂程度。对于生物工程的抽象层次模型,只考虑在每一层次的信息,而不考虑其他层次的细节。原则上,不同层次的信息只允许有限交流。
(2)对于构成工程生物系统的模块,通过重新设计和构建,对其进行适当简化,以便模拟和组装。例如,天然启动子、核糖体结合位点和开放阅读框的新组合所产生的蛋白表达水平一般很难预测,而通过人工设计改造的上述元件可通过数学建模等方式进行表达量的预测。
3.标准化
随着高通量测序技术的快速发展、测序成本的降低以及组装方法的不断完善,已测序的基因组规模呈指数级增长,为合成生物学研究提供了更多天然的生物元件。这些天然的生物元件包括蛋白质编码序列、基因表达和信号传导的调控元件以及其他功能性遗传元件。然而,未经标准化的天然生物元件难以符合特定的工程需求,不能直接应用到合成生物学系统的构建中。
电子、机械等工程领域通常依赖于标准化元件,通过对自然界的原材料加以提炼和改造,生产出符合制造和使用标准的工业元件,进而集成工业产品。在设计合成生物学系统时,标准化的生物元件有助于实现方便、快捷的自动化或半自动化组装,从而灵活运用生物元件进行多种生物学实验操作,既可以避免大量重复劳动,又能降低时间成本。
将具有生物功能的元件经过DNA序列设计使之满足特定要求,即可形成标准化生物元件,即生物积块。标准化生物元件的典型应用例子是BioBrick组装,BioBrick组装标准要求每一个生物积块使用相同的前缀和后缀序列,其中前缀序列包含EcoR I和Xba I两个酶切位点,后缀序列包含Spe I和Pst I两个酶切位点。因此,要兼容BioBrick组装标准,必须对生物积块进行设计,以确保基因编码序列不含有上述BioBrick限制性内切酶位点。除BioBrick组装方法之外,研究人员还开发了BglBrick、Golden Gate、Gibson组装以及同源重组等方法,成功实现了从单基因序列到完整基因组的组装。随着生物元件的数量越来越多,DNA元件组装方法不断丰富,如何快速、有效地完成目标序列的标准化组装成了合成生物学的一个关键问题。Densmore等人开发了DNA组装的自动化设计软件,该软件可针对需要组装的最终DNA序列设计最优的组装方案,通过高效利用元件库中的已有元件和不同序列间的共有序列,优化目标序列的合成途径,确定最佳的组装阶段数并最小化组装时间,加快DNA合成与组装速度。此外,生物元件产生信号的量化和度量也是标准化的一个重要方面。PoPS是指RNA聚合酶分子每秒(RNA polymerase per second)通过DNA上某一定点的数量,用于衡量转录水平上元件输入/输出信号的强度。
截至目前,研究人员已建立了许多具有代表性的标准,例如DNA序列数据、微阵列数据、蛋白结构数据、酶命名法则、系统生物学模型和限制性内切酶活性等。研究人员可以通过收集、整理和保存各类生物元件来构建生物元件数据库,实现生物元件的共享,进而提高生物系统设计与构建的效率。
常见的标准化生物元件数据库名称如下。
(1)标准生物元件登记库(Registry of Standard Biological Parts,RSBP)。2003年,麻省理工学院创办了国际基因工程机器大赛(iGEM),并组建了标准生物元件登记库。迄今为止,标准生物元件登记库已登记了超过20000个标准化生物元件,其中包括启动子、转录单元、质粒骨架、转座子、蛋白质编码区等DNA序列,核糖体结合位点、终止子等RNA序列,以及一些蛋白质结构域。值得一提的是,标准生物元件登记库中的生物学元件都是以载体形式保存的。
(2)生物积块基金会(BioBricks Foundation,BBF)。生物积块基金会由众多合成生物学领域专家于2004年发起,致力于推动合成生物学技术在更多领域的发展。生物积块基金会制定了元件使用与分享过程中的法律框架与相关标准,例如生物积块公共协议(BioBricks Public Agreement),以期促进和规范标准化生物元件的收集与共享。
(3)标准虚拟元件库(Standard Virtual Parts,SVPs)。标准虚拟元件库由英国学者Cooling等人创建,其包含模块化、可重复使用的生物学元件及相互作用模型,例如启动子、操纵子、蛋白编码序列、核糖体结合位点、终止子以及元件间相互作用模型,这些元件可用于基因回路以及生物系统的模型驱动设计。
(4)合成元件库(Inventory of Composable Element,ICE)。ICE由美国能源部联合生物能源研究所(Joint BioEnergy Institute,JBEI)开发,是一个开源生物元件信息管理平台,包含质粒、菌株以及各种标准DNA元件。ICE基于网络注册理念创建,既可以通过网络浏览器访问,也可以通过网络应用程序接口访问。
(5)标准生物元件知识库(Standard Biological Parts Knowledgebase,SBPkb)。标准生物元件知识库由华盛顿大学的研究人员创建,可查询和检索用于合成生物学研究的标准化生物元件。SBPkb将生物元件信息转换为可以利用合成生物学元件语义框架进行计算的信息,这个框架被称为合成生物学公开语言语义(Synthetic Biology Open Language-semantic, SBOL-semantic),SBOL也是目前合成生物学领域进行元件设计的标准语言。
(6)合成生物学数据与元件库(Registry and Database of Bioparts For Synthetic Biology)。这是中国科学院于2016年创建的国内第一个合成生物学元件库,其包括生物元件、底盘细胞、化合物、途径、基因组及模型等多类数据信息与实体。该库通过对公共数据库的序列进行筛选整合,共获得36万个催化元件信息,其中7万多个催化元件的表征信息具有实验数据支持。