合成生物学智能化设计与应用
上QQ阅读APP看书,第一时间看更新

1.3.1 层级化结构

合成生物学主要基于“自下而上”的正向工程学思想,通过三个基本层次进行层级化构建,即生物元件生物装置生物系统(见图1-2)。生物元件是指具有特定功能的DNA序列,是遗传系统中最简单、最基本的生物积块(BioBrick)。具有不同功能的生物元件可以组合为更复杂的生物装置,而具有不同功能的生物装置协同运作就可以构成更复杂的生物系统。

图1-2 层级化结构示意图

1.生物元件

生物元件是遗传系统中生命体发挥功能的最小单元,按照功能的不同,生物元件可以划分为启动子、核糖体结合位点、终止子、蛋白质编码序列等。

(1)启动子(promoter)。启动子是指通过控制RNA聚合酶与DNA的结合,从而控制目的基因转录的元件,即通过控制启动子的位置、操纵位点数量或者启动子序列本身来调控转录起始复合物与启动子的结合亲和力,从而控制转录强度。启动子可分为激活型启动子、阻遏型启动子和组成型启动子。激活型启动子会受到转录因子的正调控,转录因子水平的提升会使此类启动子的活性增加。典型的基于化学诱导剂的激活型启动子包括pLac启动子和pBAD启动子,这些启动子在基因线路中得到了广泛应用。除了基于化学诱导剂的诱导方式,“非接触式”激活型启动子可以满足对诱导方式的特殊要求,其中包括以光源等作为诱导剂的光敏启动子以及通过热激或冷激等作为诱导剂的温敏启动子。阻遏型启动子会受到转录因子的负调控,转录因子水平的提升会使此类启动子的活性降低。例如,在蓝光阻遏型启动子设计中,对蓝光敏感的蛋白结构域被插入大肠杆菌启动子的−35至−10区域内,当蓝光存在时,该蛋白形成二聚体并造成空间位阻,可以阻止RNA聚合酶的募集和转录。组成型启动子直接受到RNA聚合酶的影响,此类启动子的下游基因表达相对稳定,其表达强度取决于基因线路上所使用的组成型启动子的强度。值得一提的是,Anderson启动子库是一种合成生物学常用库,提供了各种强度的组成型启动子。但需要注意的是,强度极高的组成型启动子会消耗细胞内大部分聚合酶和核糖体资源,进而给细胞带来一定的代谢负担,甚至会导致宿主细胞出现明显的生长缺陷现象。此外,可将两种或两种以上不同启动子元件融合构成新的启动子,即杂合启动子。例如,pTac启动子为色氨酸启动子与乳糖启动子融合形成,兼具强启动能力和可调控性。

(2)核糖体结合位点(ribosome binding site,RBS)。RBS是指mRNA分子中位于启动子下游、起始密码子上游的一段短核苷酸序列,用于募集核糖体以启动转录。由于核苷酸的变化可以改变mRNA 5′端的二级结构,影响核糖体与mRNA结合自由能,从而改变蛋白质的整体翻译速率,因此RBS序列中的微小变化往往会导致表达效率上的巨大差异。Anderson RBS库是广泛使用的RBS库之一,可提供各种转录强度的RBS序列。一些在线设计工具可以预测RBS序列的强度,可为用户设计提供所需强度的RBS序列。此外,在5′端引入绝缘子(insulator)可提高预测效率。

(3)终止子(terminator)。终止子是指标志着转录结束的一段短DNA序列。原核生物的终止子在终止点之前都有回文结构,可使转录出来的RNA形成一个茎环式的发夹结构。一类终止子不依赖β因子,一般通过转录生成mRNA发夹结构,进而阻止RNA聚合酶继续沿DNA移动,使聚合酶从DNA链上脱落下来终止转录;另一类终止子则依赖β因子,即转录终止需要β因子的协同。通常,为了防止转录终止子不能完全终止转录,我们可以使用双终止子使之完全终止转录。既往研究已发现并鉴定了大肠杆菌几百种不同强度的终止子,其中有39种强终止子适用于复杂的大型基因线路设计。

(4)蛋白质编码序列(protein coding sequence,CDS)蛋白质编码序列位于RBS下游,是基因线路中表达的目标蛋白质。CDS以起始密码子开始,以终止密码子结束,并保证在CDS中间没有提前出现终止密码子。如果CDS来自其他物种,应根据宿主菌的密码子使用频率进行密码子优化以改善蛋白质表达。

按在生物系统中的功能不同,生物元件可以分为响应元件、调控元件、报告元件和降解元件。

(1)响应元件(response element)。响应元件可以是DNA、RNA或蛋白分子,能够在分子信号的诱导下激活或抑制基因的表达。响应元件在生物传感器中具有广泛的应用前景,可用其设计生物学反应系统与信号感应系统,实现对生物系统的精确调控。常见的响应元件包括感光元件、温度元件、酸碱响应元件以及化学信号响应元件等。

感光元件一般为光感基因所表达的光敏受体蛋白,这些蛋白可以感受到不同波长的光信号,并转换成细胞内的生物信号,从而调控基因表达。

温度元件包括热激反应元件和冷激反应元件,可以根据外界温度变化调控基因表达水平。

酸碱响应元件通过转录因子或RNA稳定性等方式,根据细胞外环境的pH值来调控基因表达水平。

化学信号响应元件可以识别和结合特定的化学物质浓度和种类,进而通过细胞内信号转导改变基因表达水平。例如,一些小分子化合物(如阿拉伯糖、异丙基硫代-β-半乳糖苷)可以作为外部信号调控基因表达。

此外,还有声响应元件、电响应元件以及氧气响应元件等,在选择响应元件时,我们需要综合考虑应用场景、灵敏度、特异性及环境依赖性等因素。

(2)调控元件(regulator element)。调控元件通常为蛋白质或RNA,能够与DNA序列结合并实现对基因表达的快速响应和精确调控。常见的调控元件包括强调控元件、弱调控元件、可变调控元件和组织特异性调控元件。

强调控元件通常具有较高的活性,能够快速驱动基因表达。

弱调控元件具有较低的活性,能够维持基因表达的稳定。

可变调控元件可以根据外部信号调节基因表达水平。

不同种类的组织或细胞中基因调控表达存在差异。组织特异性启动子是一种组织特异性调控元件,在该启动子调控下,外源基因一般只在某些特定的器官或组织部位表达。例如,Bilal等人采用Cre重组酶双荧光报告基因小鼠作为实验动物,将在心脏具有特异活性的Nppa和Myl2启动子插入表达Cre的腺相关病毒(AAV9)载体中,最后将AAV9基因特异性表达载体应用在心脏腔室中进行基因特异性表达研究。

(3)报告元件(reporter element)。报告元件通常可以产生明显可观察的蛋白质或者RNA分子作为信号,用于监测生物系统的状态。典型的报告蛋白元件包括荧光蛋白(绿色荧光蛋白、红色荧光蛋白等)、生物发光系统(luxCDABE)、荧光素酶基因(Luc)和比色系统(LacZ蓝白斑)。例如,β-半乳糖苷酶基因(LacZ)可以编码一种酶,能够将X-gal转化为蓝色产物。除了上述报告元件,还有许多其他的报告元件,例如荧光蛋白基因的突变体、荧光素酶的突变体等。在选择报告元件时,我们需要考虑其灵敏度、特异性、稳定性、不影响目标基因表达等因素,并结合具体应用场景进行优化和设计。尤其是,在研究基因表达动力学时,我们应该考虑到不同的荧光蛋白具有不同的荧光成熟时间——这可能在建模研究动力学时带来不必要的延迟。如果有其他蛋白质并行表达,可使用合适的荧光报告分子,例如以单体形式存在的超折叠绿色荧光蛋白(superfolder green fluorescent protein,sfGFP),可以最大程度地减少对其他蛋白质的干扰。

(4)降解元件(degradation element)。降解元件一般为能够催化mRNA降解的RNA分子,进而控制基因的表达和生物系统的代谢过程,可用于构建RNA干扰、基因沉默或者其他基因敲除技术。例如,RNase E(ribonuclease E)是大肠杆菌及相关微生物中的核糖核酸酶,能识别并切割特定的RNA序列,在mRNA降解以及rRNA和tRNA成熟中可起到关键作用;RNase Ⅲ(Ribonuclease Ⅲ)是大肠杆菌中的一种特异性核酸外切酶,能识别并切割RNA的双链结构;丁型肝炎病毒(hepatitis delta virus,HDV)的基因组中编码有一种核酸酶,能识别并切割其RNA的特定序列。此外,蛋白质降解决定子(degron)通过与目的基因融合表达,可被细胞内的蛋白酶识别,以介导蛋白质的降解。

2.生物装置

将生物元件按一定的逻辑拓扑结构加以组合,使其发挥特定的功能,即可形成生物装置(biological device)。生物装置通过信号传导、代谢作用以及其他方式处理输入信号,进而生成输出信号。也就是说,生物装置内可发生一系列生物化学反应,包括转录、翻译、蛋白质磷酸化、变构调节、蛋白质相互作用以及酶反应等。

基础的生物装置包括报告装置、信号转导装置以及蛋白质生成装置。

(1)报告装置。报告装置是使产物可以被检出的装置。它将启动子、调控元件和报告元件加以组合,实现对生物系统的状态监控。

(2)信号转导装置。信号转导装置是环境与细胞或者细胞与细胞之间接收、传递信号的装置。细胞通过感受环境信号或其他细胞分泌的信号分子等,将信号转入细胞内部,通过信号转导逐级传递至效应蛋白,最终输出特定的信号。

(3)蛋白质生成装置。蛋白质生成装置是能够产生目标蛋白质的装置。它可以整合调控元件序列与蛋白质编码序列,按需求实现目标蛋白质的表达。

构建生物装置的基础是设计与合成基因线路,这也是合成生物学学科形成的标志性工作。所谓基因线路的合成,是指利用电气工程框架和数字电路的逻辑运算思想,按照电子工程学原理和方式设计、模拟,运用不同功能的基因和由生物分子组成的基本功能元件构建动态调控系统,通过特定的控制逻辑在活细胞内感知和处理信号分子。研究人员可以用相应的数学模型对这些简单的基因线路进行描述并利用外界信号对其加以调控,以及对设计方式进行评估并可重设计、重合成。2000年,波士顿大学的James Collins课题组采用反馈调节设计出了双稳态开关(toggle switch),这是第一个真正具有合成生物学意义的基因线路功能模块,是构建具备设计功能的工程基因线路的开创性工作。同年,普林斯顿大学的Elowitz和Leibler设计并构建了基因表达振荡器,利用3个转录抑制模块实现输出信号的规律性振荡。随后,各种控制模块陆续得以设计、构建,包括基因开关、振荡器、放大器、逻辑门、计数器以及复杂组合基因线路。2008年,研究人员在大肠杆菌中开发了快速、可持续并具有鲁棒性的遗传振荡器,使之通过负反馈线路实现时间延迟,产生功能性转录因子的细胞级联过程,并通过正反馈线路提升振荡器的鲁棒性和可调性,实现了振荡线路设计和理论研究方面的重大突破。2009年,研究人员首次在哺乳动物细胞中实现了对基因表达的周期性调控,该振荡器基于正反馈与负反馈基因回路,可自主、自我维持,以及可调控完成基因的振荡表达。这项工作有助于理解哺乳动物昼夜节律钟的精准分子机制和表达动态。2010年,研究人员通过合并群体感应制成了同步基因振荡器,该振荡器由正、负反馈线路组成,其工作原理是:单一细菌产生的信号分子可向外扩散并激活周边细菌的基因线路,通过在线路中表达可分解该信号分子的蛋白,为循环提供延时制动,单一细菌和相邻细菌中的不同基因线路发生动态相互作用,可用于建立信号分子和荧光蛋白的定期脉冲。这项工作为环境传感器以及药物输送系统奠定了强大的基础。

目前,基因线路的研究范畴已经从转录调控扩展至转录后和翻译调控,基因线路由此成为构建人工生命系统以及探索生命运行规律的强大工具。

3.生物系统

通过串联、反馈或者前馈等形式,我们将生物装置组合成更复杂的级联线路或者调控网络,即生物系统(biological system)。自然生物系统中的调控网络有转录调控网络、蛋白质信号通路和代谢网络。这里我们将以工程信号转导系统、人工细胞-细胞通信系统、代谢工程、生物传感器、最小基因组等为例,介绍生物系统的构建策略以及研究进展。

(1)工程信号转导(engineering signal transduction)系统。细胞与环境间的相互作用,以及许多细胞功能是由多个相互联系的工程信号转导级联系统介导的,这些工程信号转导级联系统由复杂的蛋白质线路组成,蛋白质线路则由许多不同的模块域组成,从而赋予了信号转导级联系统特定的功能和路径连接,并决定了信号网络的输入和输出。这些蛋白质可以通过直接修饰(如磷酸化)或者与特定配体结合来转导信号。蛋白质调控的级联线路对输入具有超敏感性响应,输入信号中的微弱变化就可能促使输出发生由低到高或由高到低的转换。了解和操纵信号转导机制可增加合成网络设计的复杂性和灵活性。Dueber 等人对酵母中变构蛋白信号开关进行了模块化的重编程,与诱导肌动蛋白N-WASP输出结构域变构激活的正常输入不同,该蛋白被设计成具有不同的自抑制输入结构域,可以响应不同的诱导剂。通过这种方式,肌动蛋白N-WASP 输出与异源输入耦合,进而创建了全新的信号通路,使设计人员能够观察和理解某些参数如何影响开关的行为。酵母支架蛋白Ste5和Pbs2通常分别介导的是α-factor因子响应和渗透反应,但经过融合和改造,将α-factor因子输入引导至渗透反应输出;Howard等人将磷酸酪氨酸识别结构域 Grb2 和 ShcA 融合到Fadd蛋白的死亡效应结构域,构建的新型嵌合蛋白可有效地引导有丝分裂或转化受体酪氨酸激酶信号以触发细胞死亡。

(2)人工细胞-细胞通信系统(artificial cell-cell communication system)。利用合成基因线路可构建人工细胞-细胞通信系统。Basu等人利用由细菌种群中两种不同细胞类型组成的特性良好的自然模块设计了人工细胞-细胞通信系统。在该系统中,一种细胞负责发送信号,另一种细胞则用作信号接收器,可对发送细胞诱导剂信号的行为作出反应。该系统被设计为响应诱导信号时空特征的脉冲发生器,为了响应由发送细胞产生诱导剂增加的持久性,接收细胞以GFP的脉冲来响应。在接收信号细胞的基因线路中,GFP和lambda抑制器都通过信号分子激活的LuxR转录因子响应N-酰基高丝氨酸内酯(N-acyl homoserine lactones AHL)浓度而表达,同时GFP的转录也可被lambda抑制元件所抑制。随着AHL浓度的上升,GFP表达先上升,随后被同时表达上升的lambda抑制器抑制。结果表明,根据诱导剂浓度和两种细胞距离的变化,可通过数学模型定量描绘出对信号分子的动力学响应曲线,实现了脉冲发生器的构建。2015年,研究人员利用细胞信号传导机制来调节多种细胞类型的基因表达,构建了由两种不同的细胞类型组成的合成微生物群落,即“激活剂”菌株和“阻遏剂”菌株,这些菌株产生了两个正交的细胞信号分子,在横跨两个菌株的合成线路中调节基因表达,形成种群水平振荡,这项工作通过研究种群水平动态进行编程的能力为具有多种细胞类型的复杂组织和器官的人工合成指明了方向。

(3)代谢工程(metabolic pathway engineering)。在大肠杆菌和酿酒酵母菌等模式生物中使用工程途径和模块化的生物合成级联,可以改变细胞原有的代谢途径,进而产生非天然的代谢物或提高目标代谢物的产量。代谢工程的一个重要特点是将新的途径整合到细胞中,并考虑到维持细胞基本功能所需的本地代谢物和操作手段。例如,青蒿素是治疗疟疾耐药性效果最好的药物,以青蒿素类药物为主的联合疗法也是当下治疗疟疾最有效、最重要的手段。青蒿素是由青蒿天然产生的,获取难度大、制备时间长且价格昂贵。为了降低青蒿素的成本,Ro等人开发了酵母生产青蒿酸(青蒿素前体)的系统,使用一种改进的甲羟戊酸途径,通过使酵母细胞工程化来表达amorphadiene合成酶和细胞色素P450氧化酶(这两种酶都源自工程菌大肠杆菌),其中P450氧化酶通过三步氧化法可将amorphadiene 氧化成青蒿酸。随着后续研究中产量优化和规模化采收,基于青蒿素相关治疗药物的生产时间将显著缩短,其成本也会降低。

(4)生物传感器(biosensor)。合成生物学的发展大大促进了生物传感器的发展。生物传感器利用待检测物质作为输入信号,通过构建的基因线路将输入信号转为细胞内的生化信号,并实现下游特定基因的表达。全细胞生物传感器的制造通常包含三个阶段:对输入的单一信号或多重信号感知信号处理产生可观测的输出反应。目标物理量的检测通常是通过转录因子发生别构效应(通过影响启动子区域来激活或抑制基因转录的启动)从而转换为内部生化信号,并触发随后的一系列细胞信号转导事件,从而将细胞内部的生化信号转化为外部可定量或定性检测的报告信号。合成生物学技术大幅提升了可用于生物传感器的元件数量和质量。例如,计算机驱动的蛋白质工程技术可设计具有全新结构的蛋白质结构域、蛋白质相互作用表面以及具有功能活性的酶,促进了生物传感器特定功能的实现。此外,基于细菌分裂与繁殖的全细胞生物传感器大幅度降低了制造成本,具有重要的经济意义,减少了将生物传感平台扩展到工业应用水平的障碍。

(5)最小基因组(minimal genome)合成生物学的目标之一是更好地理解生命,以及在功能上整合组成细胞的系统。解决这个问题的主要策略之一是定义基因组中足以维持生命的最小组成部分。随着高通量DNA测序和合成技术的发展,研究人员构建了多种缩减基因组的底盘菌株。目前有两种互补的策略来研究最小基因组:一种是“自上而下”的策略,即去除非必需的遗传基因,进一步简化生物体基因组——随着大规模基因组测序与分析技术的发展,研究人员通过对来自不同生物体的基因组加以比较分析,揭示对于细胞生命和代谢途径等必不可少的基因;另一种是“自下而上”的策略,即合成基因组的每个组件,并通过组装实现基因组的人工合成。高速发展的生物技术使基因调控网络的设计、生物合成途径的开拓乃至整个基因组的构建成为可能,目前已成功合成的有病毒、细菌和真菌基因组。例如,研究发现,模式生物大肠杆菌的基因组大于5 Mb,包含4000多个基因,其中1000多个为未知功能的基因。大肠杆菌可在多种环境(如好氧和厌氧,以及不同营养物质、pH值和温度等)下繁殖,然而其基因组编码了许多实验室培养和工业发酵不需要的基因,这些基因会导致能量和原料的浪费(如非必需基因组片段复制,以及功能冗余的转录物、蛋白质和代谢物的合成),若删除这些不必要序列,则有可能使其成为生物制造产业中的优良细胞底盘。