书写DNA:信息技术与生物技术交融迸发的无限潜力
樊春海
樊春海,中国科学院院士,南京大学学士、博士,美国加利福尼亚大学圣巴巴拉分校博士后;2004—2018年任中国科学院上海应用物理研究所研究员,2018年起任上海交通大学化学化工学院教授,现任化学化工学院院长、转化医学研究院执行院长、国家转化医学科学中心唐仲英首席科学家、上海交通大学王宽诚讲席教授,新基石研究员;兼任美国化学会《美国化学会志 Au》(Journal of the American Chemical Society Au)副主编,《德国应用化学》(Angewandte Chemie)、《化学研究述评》(Accounts of Chemical Research)、《美国化学学会纳米》(American Chemical Society Nano)等十余种国际知名杂志编委,《化学加化学》(ChemPlusChem)编委会共同主席;入选中国医学科学院学部委员,美国科学促进会(AAAS)、国际电化学学会(ISE)、美国医学与生物工程院(AIMBE)及英国皇家化学会(RSC)会士,已发表论文700余篇,自2014年起连续当选“全球高被引科学家”。
20世纪末,很多人都在讨论即将到来的21世纪到底是信息技术(IT)的世纪,还是生物技术(BT)的世纪。现在我们已经越来越清晰地意识到,21世纪既是信息技术也是生物技术的时代,更是两者交叉融合的时代,这种交融很有可能带来更多、更新的机会。
交叉科学的重要性
科学,可以说是“分科之学问”。人类迄今获得的知识已经浩如烟海,单凭个人的能力已不可能掌握全部的科学知识。科学被划分成文学、历史、哲学、数学、物理、化学、生物等学科。这种分科研究的方法便于人们聚焦于特定行业或领域,有针对性地累积大量专业知识,从而取得更深入和系统化的认识,推动该学科的发展。
虽然传统的分科研究推动了现代科学飞速发展,但是我们也看到了这种方法的一些固有缺陷。比如过度分割可能导致学科和学科间缺乏联系,很多研究无法突破边界等。这些缺陷的存在导致不同学科之间留下了大量的空白地带。这使科学界对交叉科学产生了极大关注。交叉学科需要研究者具备跨越不同学科间壁垒的能力,而作为一种新的科研范式,还可能超越传统学科里先行者固有的先发优势。这种特质更为我国带来了一种全新的可能性:传统学科赛道上欧美是先行者,已经建立起几百年的领先优势,我国虽然在奋力追赶,但想要赶超还有待时日。而在传统学科的边缘和交叉地带还存在全新的机会和无限的潜力,我们有望通过学科交叉抢先取得能够影响全世界、全人类发展的重大突破。因此交叉科学受到了国家和社会的广泛关注,学科的交叉融合已成为科学发展的重要时代特征。
信息技术与生物技术的交叉
21世纪既是信息技术也是生物技术的时代,更是两者交叉融合的时代,这种交融很有可能带来更多、更新的机会。
谷歌,这家传统的信息技术大企业的研究领域看似与生命科学毫无联系,难以想象它能够给生物技术领域带来变革。但这种情况却在过去的几年内变成了现实——2018年谷歌首次发布AlphaFold,利用人工智能(AI)的力量对蛋白质结构实现了预测。到2024年5月,AlphaFold已经更新至第3版,将可预测的范围从蛋白质结构扩展到大部分生命分子,准确率也提高了一倍。这种技术对生命科学领域产生了非常深远的影响,因为蛋白质等生命分子的结构可以说是整个生物技术领域的基石之一。生物体内的酶、各种抗体等功能性大分子在生物体内发挥着重要的功能,因此这些分子的精准结构可以为新的结构改造或药物分子设计提供指引,加速药物的研发,寻找新的靶点和治疗方法。在人工智能被引入结构生物学之前,百年间无数生物学家进行了不懈的努力,仍然只有极少数蛋白质的结构被真正研究出来。因此当第1版AlphaFold推出并展示出其强大的实力之后,结构生物学家纷纷发出悲叹,因为他们在做的事情似乎已经被人工智能代替了,但是很快他们又从悲观中醒悟过来,因为这种颠覆性的突破实际上预示着更大的机会,现在生物技术领域的科学家都开始积极地拥抱AlphaFold,把它作为一种强大的工具,加速自己的研究。除了AlphaFold之外,现在还有越来越多来自信息技术领域的技术与生命科学挂起钩来,比如人工智能制药,人工智能与医学的结合等,这些都是典型的信息技术—生物技术跨界融合从而产生新机遇的例子。
上文描述的都是信息技术向生物技术的跨界,那么反过来生物技术是否也能向信息技术赋能呢?脱氧核糖核酸(DNA)或许就能做到这一点。
DNA的发现及重要应用
《蒙娜丽莎》与DNA双螺旋结构[1]
DNA存在于我们每一个人的身体里,从本质上讲,DNA是一个化学分子,可以被看作一种高分子。生物在进化的过程当中,选取了这种双螺旋结构的高分子材料作为我们遗传信息的载体。DNA双螺旋是一个特别美妙的结构,我们可以将这种结构想象成一条拉链,向右手方向拧转。很多艺术家都非常喜欢这样一个来自生命的结构,因此我们在很多建筑物或者雕塑中都能发现这样的元素。在DNA双螺旋结构被发现50周年的时候,有人把DNA的双螺旋结构和《蒙娜丽莎》融合到了一起。在艺术中,永恒的形象是蒙娜丽莎;在科学里,永恒的形象是DNA双螺旋结构。
双螺旋结构的发现可以追溯到1953年,两位伟大的科学家——沃森(Watson)和克里克(Crick)——在著名的《自然》(Nature)杂志上发表了一篇论文《核酸的分子结构》。整篇论文只有一页纸和一张图,却开启了生命科学进入微观世界的新征程——分子生物学,后续衍生出了分子微生物学、分子神经生物学、脑科学等全新的领域。更重要的是,双螺旋结构的发现回答了一个困扰人类上万年的天问:我们从哪里来?我们到哪里去?这篇简短的论文告诉我们:DNA一共只包含4种单体,分别用A、T、C、G表示,其中A与T配对,C与G配对,“从DNA的配对方式,我们马上可以推测出遗传物质的复制机制”。这样一个简单的结构让我们明白了我们如何从父母那里获得遗传信息,又如何传递给下一代。有意思的是沃森是一位生物化学家,克里克是一位物理学家,所以DNA结构的发现本身也是一个跨界合作的产物。
沃森和克里克发现DNA双螺旋结构[2]
经过几代科学家的共同努力,现在我们翻开任何一本分子生物学的教科书,都可以看到遗传是如何进行的。我们体内有一种叫“DNA聚合酶”的蛋白质,它的尺寸比头发丝直径还小1 000倍,它像一个纳米尺度的复印机,把DNA双螺旋从中间分开,然后“复印”出两条跟原来一模一样的双螺旋链,这就是DNA的复制过程,在我们细胞里面这种复制无时无刻不在进行。
核酸包括DNA和核糖核酸(RNA),与其相关的研究一直是诺贝尔奖的宠儿,该领域的研究成果产生了几十个诺贝尔奖,上百位科学家因此获得诺贝尔奖,可说是产出诺贝尔奖最多的领域之一。从最开始对核酸结构的认识,到对核酸功能的认识,再到前几年对核酸信息的调控——也就是我们熟悉的成簇规律间隔短回文重复(CRISPR)基因编辑技术。通过该技术,我们不仅可以了解基因的结构和功能,还可以对它内部储存的遗传信息进行非常精准的编辑和调控。
这样一段非常美妙的科学发现历程不仅满足了人类的好奇心,让我们知道我们从哪里来、到哪里去,而且开启了整个现代生物技术工业。例如核酸检测技术,这是一个非常伟大并且也获了诺贝尔奖的技术,它利用了自然进化过程中的聚合酶,就像一台天然复印机一样不停地把采集到的DNA分子一变二、二变四,最终积累到很高的水平。因此即使一开始样本里只有极少量的病毒DNA,通过DNA聚合酶的复制扩增也可以实现检测。核酸检测技术可以对病毒、细菌或者目标基因进行高灵敏度的检测,在医学、农学与畜牧学、生态学、刑侦学等领域都有广泛的应用。
另一个非常重要的技术就是核酸测序。它起源于20世纪末一个非常伟大的大科学项目——“人类基因组计划”。当时全世界几十个国家联合起来,投入几十亿美元,经历整整10年时间,只测了一个人的基因。而今天,我们只需要花费几个小时和不到1 000元人民币,就可以测一个人的全部基因序列。如果测序的价格能够降到100元的话,或许我们的体检都可以加上这一项目。
测序技术的发展还让我们能够测几十万年甚至百万年前古生物的基因信息,帮助我们了解古人类、猛犸象等古生物。古生物DNA测序技术前几年也获得了诺贝尔奖。
DNA成为一种变革性的新材料
在微观层面,利用高分辨率显微镜我们可以看到DNA的真实结构,就像一条长度只有2纳米的毛线。我们不仅可以看到它,还可以操纵它排列出我们想要的字母。在宏观层面,特殊的纺丝技术可以把DNA纺成细丝,它的强度比天然蛛丝的强度还要高,可以作为防弹衣和人工韧带等的原材料。最早提出把DNA作为一种材料来使用的是纽约大学的西曼(Seeman)教授,他在1983年提出这个新颖的想法时还被认为是荒诞和不切实际的,但是现在已经变成现实。
为什么DNA可以作为一种变革性材料呢?
我们都知道信息技术世界的底层逻辑是0和1,而我们生命的“底层逻辑”就是A、G、T、C4个字母。如果把0和1看作二进制,那么DNA就是一个四进制的编码体系,大自然中的花鸟虫鱼本质上都是A、G、T、C的排列组合。DNA作为一种生物亿万年进化选择的高分子材料,拥有一个和其他材料不同的特征,即可编程性,因此它的本质是一种由A、T、C、G4种核苷酸组成的、可编码的分子信息材料。
DNA碱基作为信息编码字节[3]
有一种叫作“DNA折纸”的技术,就像织毛衣一样,可以按照特定的程序把DNA编制成各种各样不同的图案。最早是美国加州理工学院罗斯蒙德(Rothemund)博士利用这样的编程技术,用DNA编织了一个直径为70纳米的笑脸图案。2006年,我们团队用DNA编织了一张中国地图,这是一个不对称的DNA纳米结构,也可能是最小的中国地图。后来我们又用这张地图作为模块单元,拼出了一个熊猫图案。这个快速发展的技术领域我们称为“DNA纳米技术”或者“核酸纳米技术”。简单地理解,这种技术可以像织毛衣或3D打印一样,把DNA这种信息材料编码成一维、二维、三维、多孔、曲面等各种各样的纳米尺度结构。
这些非常规则和精确的材料有着广泛的应用。宏观世界里最有用的材料就是框架材料,例如房子就是由多种框架材料构成的。框架材料为什么重要?我国古代的哲学家老子给出了一个最精准的哲学描述,就是“利”和“用”的关系。《道德经》里有一句话是“故有之以为利,无之以为用”,就是说必须要有框架、有空间才能发挥作用,就像用空碗才能吃饭,用空杯才能喝水,空屋才能住人,框架里面空心的部分“无”才是能够发挥作用的部分。
利用DNA折纸术制作的以DNA中国地图为模块拼接的熊猫图案[4]
基于利用DNA来编织框架结构的能力,我们率先在国际上提出了“框架核酸”的概念,即一类人工设计的结构核酸,它的尺寸、形貌和力学特性可以程序性地调控。这种微小的框架核酸可以“住”分子,为生物分子的识别提供更好的结构支撑,从而成为疾病诊疗、合成生物学等领域的重要工具。
在过去的十几年里,我们和国际上许多团队一起在框架核酸的领域做了很多工作,并证明它确实是一个通用的“技术平台”和“工具箱”,可以为生物检测、疾病治疗甚至与微电子相关的领域提供非常精细的基本工具。
DNA与信息技术的结合
那么如何把DNA与信息技术结合起来呢?
让我们用宏观世界中已经无处不在的机器人作为例子:机器人是一个典型的信息技术产物,那么微观世界中是否也有类似的机器人呢?关于这个概念,我们最早可能只是在科幻小说里看到过,未来可能有一种纳米机器人,它可以走到我们的细胞里,寻找到癌细胞并消灭它们,这样不用动手术就能治疗疾病。科学就是不断地把科幻变成现实的历程,科学家围绕这个看似科幻的想法奋斗了很多年,大家意识到建造这种纳米尺度的机器人必须要利用生物技术,采用分子来搭建。
首先是要创造出可以运动的分子,我们称之为“分子机器”。1983年法国科学家绍瓦热(Sauvage)发明了两类可以自主运动的分子机器,通过有机合成的方式创造了分子的运动。随后有许多科学家都在分子机器的领域内不断探索,例如荷兰的费林加(Feringa)教授发明了可以运动的分子汽车。这两位教授和美国的司徒塔特(Stoddare)教授一起获得了2016年的诺贝尔奖,以表彰他们在分子机器领域的贡献。分子机器的产生使得分子突破了布朗运动的限制,产生了定向机械运动,可以像宏观的机器人一样走起来。诺贝尔奖委员会高度评价了这种纳米尺度的机器人:“分子机器在未来的应用可以说不可限量,甚至还能应用于医疗,进入人体组织修复器官,除去癌变细胞,更换有缺陷的人体基因。”
但是获得诺贝尔奖并不意味着分子机器人的研发画上了圆满的句号,它代表的其实是大家对技术潜力的无限憧憬。这些通过有机合成人为创造的分子,在体外可能运行得很好,可以实现各种各样的功能。可是它一旦进入细胞,情况就会完全不同。因为细胞对这些小分子来说是一个太过巨大和复杂的空间,有点类似于人类进入了浩瀚的太空。细胞内部有细胞质、细胞核和各种细胞器,要在这些位置之间穿梭就像人类要在不同的星球间穿梭一样,是一个高难度的行为,需要克服高度复杂的生物环境带来的各种问题。
要完成这样复杂的动作,必须让这些机器具有智能。这已经超越了有机合成的能力范畴,于是化学家将目光转向了分子的组装,希望借此突破分子智能的限制。因为在我们的细胞里面就有一些“机器”无时无刻不在运行。比如说我们体内与肌肉运动相关的蛋白质就在不断组装和解组装,这就是一个天然的分子机器。于是我们前些年提出了一个理念:能不能不依靠有机小分子从头合成,而是直接借助自然的力量,利用DNA或者框架核酸在细胞里的组装和解组装来构筑仿生的DNA机器,从而实现细胞里的物质和能量调控?
基于这个理念我们开启了全新的合成生物学研究:我们创建了一系列由框架核酸组装的原件,它们像3D打印一样精确;我们证明了可以通过分子组装产生智能,即用框架核酸创造智能分子机器人,虽然看上去比较粗糙,但却可以像家里的扫地机器人一样走迷宫;我们还从细胞外深入到了细胞内,仿造病毒这种天然纳米机器人的构造和工作原理做出框架核酸纳米机器人。这些工作有望推动生物医药产业进一步发展。
可以像扫地机器人一样走迷宫的框架核酸智能分子机器人[5]
虽然DNA这种全新的材料与信息技术世界中机器人的结合是一个新兴的领域,但已经呈现出非凡的价值,值得持续探索。
DNA存储
什么是DNA存储?简单来说,DNA存储就是用DNA来存储计算机的信息。这个想法是不是听起来很疯狂?基于硅的计算机信息为什么能存到我们碳基生物中去?但是一旦深入到两者的本质层面上,这一切就能得到非常合理的解释,因为计算机世界本质上是由0和1组成的二进制世界,而DNA则是由A、G、T、C组成的四进制世界。这两个进制之间完全可以进行相互转换。
近些年,DNA存储获得了各界的广泛关注,例如:我国把DNA存储列入了《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》和《“十四五”国家信息化规划》;美国的《科学》(Science)杂志提出了未来发展的125个科学问题,其中信息科学的四大问题之一就是能否用DNA做信息存储的介质;美国成立了DNA数据存储联盟,微软等企业已经参与其中;国内的一些信息技术公司也对这个领域非常感兴趣,希望参与这个全新的变革性存储研究。
数据或者信息的存储实际上与整个人类文明的发展密不可分,可以说整个人类社会的文明史就是一个信息存储和传播方式不断变革的历史。从原始人的结绳记事,到纸张的发明,再到20世纪80年代出现电子信息,如今又有了硬盘、U盘、云盘等新的存储介质,数据存储的问题是不是都解决了呢?
实际上并没有,如果看一下全球数据的增长情况就能发现,我们进入了一个信息爆炸时代。2020年全世界的数据是44泽字节(ZB),也就是440万亿亿字节,这些数据的存储需要消耗整个三峡大坝全年的发电量,而且数据还在不断增长,现有能源将难以为继。但是我们再仔细分析就能发现,这些数据里80%~90%都是冷数据,这些数据不像我们手机里的信息需要快速频繁地被调用,相反,它们在一年甚至更长时间里都很少被使用。如果要保存这些数据需要持续地消耗能源或者金钱,但直接丢弃又可能意味着人类文明的一种损失,这就造成了一个困境。
另一个困境来自数据的传输。各种技术的发展使得现在人类活动产生的数据已远超从前。例如前些年人类第一次拍摄黑洞的照片,数据量高达5拍字节(PB),要存满几千个太字节(TB)级别的硬盘,总质量达到半吨。这样的数据量已经无法用网络进行传输,只能回到最原始的方法,用车辆或者飞机来运输,运输的难度和费用直线上升。
第三个困境是存储寿命。现在的硅基存储方式经过10年左右基本都要进行一次数据迁移,除了造成成本上升之外,随之而来的还有数据安全性和可靠性问题。
这些困境都对硅基存储提出了严峻的挑战,于是大家想到了DNA存储。实际上,早在20世纪60年代就有科学家提出DNA存储的设想,1988年这个设想得到了首次证明。如上所述,二进制和四进制的转换实际上并不难。对DNA存储而言,数据的写入就是DNA的合成,而数据的读出就是基因测序。
微软前几年也进入DNA存储领域,并在2019年推出了世界第一台端到端的DNA存储原型机,使DNA存储从科学研究真正走向了产业化。国内的华为、联想和华大基因也都非常关注DNA存储。这种来自业界的高度关注与DNA的优势是密不可分的。经过推算,利用DNA这一来自生命的全新材料存储数据,可以把信息存储的物理极限提高7个数量级,相当于把1 000万块硬盘的数据存到一个只有50克砝码大小的DNA中,而全世界440泽字节数据用200千克DNA就可以存下。这样再也不会担心未来的数据量太大存不下了。除了密度极高之外,DNA存储的能耗极低,寿命极长。对硅基来说,存储10年是寿命极限,DNA却可以存储千年甚至百万年,理论上DNA中的信息可以永久保存。此外,DNA存储还有安全性高和抗干扰性强等优势。
更重要的是DNA存储的上下游已经取得了突破。DNA合成早在20世纪就已经实现,到现在已经是一个成熟的产业,其成本是按照摩尔定律下降的。由于人类基因组计划的推动,基因测序甚至出现了超摩尔定律的发展,已经从一个几十亿美元的天价科学项目变成一个不到1 000元人民币的成熟技术。DNA存储很可能在不久的将来就可以实现。
虽然现在DNA存储的存取和读出速度还比较慢,也只是针对部分冷数据进行存储,但相信在可预见的未来,医疗、航空航天等领域的各种大数据都有可能变成由DNA来存储。
DNA存储是利用来自生物的材料执行信息技术的功能,因此是一种典型的信息技术—生物技术交融的技术,我们期待它能够按照半导体科技爆发式、跨越式、非线性的规律发展。就如1946年全世界第一台计算机“埃尼阿克”问世,整个计算机极其复杂,体积和一个房间一样大;但是到1982年就已经出现与我们现在的计算机非常相似的个人计算机。所以我们期待这台由微软开发的简单、粗糙的DNA存储原型机能在不久的将来脱胎换骨,真正成为一台商业化的设备。我们也在上海交通大学成立了DNA存储研究中心,希望能引领和促进整个行业的发展。未来信息技术和生物技术的交融,以及更多不同学科的交叉与融合,可能就是新一轮技术革命和产业变革的必由之路。
参考文献
[1]Tikhomirov G, Petersen P, Qian L L. Fractal assembly of micrometre-scale DNA origami arrays with arbitrary patterns[J]. Nature, 2017,552:67—71.
[2]Watson J D, Crick F H C. Molecular structure of nucleic acids: a structure for deoxyribose nucleic acid[J]. Nature, 1953,171:737—738.
[3]Lv H, Xie N L, Li M Q, et al. DNA-based programmable gate arrays for general-purpose DNA computing[J]. Nature, 2023,622:292—300.
[4]Meiser L C, Nguyen B H, Chen Y J, et al. Synthetic DNA applications in information technology[J]. Nature Communications, 2022,13:352.
[5]Chao J, Wang J B, Wang F, et al. Solving mazes with single-molecule DNA navigators[J]. Nature Materials, 2019,18:273—279.