哪些科学新发现即将改变世界(套装8册)
上QQ阅读APP看书,第一时间看更新

04 使用基因测序解决连接组问题

安东尼·扎多尔(Anthony Zador)

神经科学家,纽约冷泉港实验室神经科学系主任

创造会思考的机器,先要破解连接组

每年会有30 000多名神经科学家聚集在一起分享他们的新发现,这些发现足以汇集成几千篇科学论文。神经科学发展的速度令人震惊,但我们依然没有真正搞明白大脑是如何工作的。这是为什么呢?

我认为主要原因在于我们遗漏了至关重要的信息。尽管我们对细胞分子、单个神经元以及脑区的总体结构了解很多,但仍缺乏神经回路层面的信息。其中一个重要的先决条件是知道大脑的“接线图”。这里有一个好消息,因为近期技术的进步,我们可能很快便会得到大脑的“接线图”,也就是大脑的“连接组”了,我们在这个“接线图”上能够分辨出单个神经元来。

但是目前的技术还做不到,也就是说我们还没有“解析”大脑的能力,因为显然我们离获得这个“接线图”还有距离。如果我们真正了解了思想是怎样产生的,便能够制造出具有类似人类思想的机器。

在半个多世纪前的计算机时代之初,人们对计算机抱有很高的期望,以为它很快将会拥有许多与人类相同的认知能力。人工智能之父之一赫伯特·西蒙(Herbert Simon)在1965年预测:“在20年内,机器将有能力完成人类可胜任的任何工作。”当然,现在看来这个预测太离谱了。

我们认识到,有些人类的大脑认知功能比其他功能更难让计算机学会。让我们感到奇怪的是,人类觉得容易做的任务往往对机器来说很困难,而对机器来说很容易完成的任务往往会让人类觉得很困难。比如,幼儿在两三岁时便能够学会用杯子喝水,和狗狗一起打滚或者识别出童话故事中的坏蛋,但这些对机器而言则非常具有挑战性。如今,计算机可以打败国际象棋世界冠军,但由于机器的视觉功能及相关领域仍处于原始状态,因此我们还没有发明出可以把碗碟装入洗碗机的家务机器人。

为什么人和机器的差别会是这样的呢?生物学计算是否存在某些特殊之处,使人类在某些方面非常卓越?人类的这些大脑功能能否被计算机复制?冒着过度简化人类演化史的风险,人们对这个问题的不同解答引发了两种截然不同的研究方法。一方面,认为大脑没有什么特殊之处的人继续采用所谓的经典人工智能方法。另一方面,有些研究者相信大脑计算的方式正是让人类更胜一筹的原因,只有根据相同的原理构建出计算引擎,才能让机器拥有真实有机体的能力。持有后一种观点的研究者最终通向了连接主义领域的神经网络与机器学习之路。

尽管神经网络的源头可以追溯到20世纪50年代甚至更远,但我们可以方便地把这个领域的现代“文艺复兴”确定在1986年,即鲁梅哈特(Rumelhart)和麦克莱兰(McClelland)有关“并行分布式加工”的书籍出版的时候。“并行分布式加工”这一观点的主要内容是:大脑计算的主要特点是平行和分布。许多简单的求和节点神经元取代了计算机单一的中央处理器(CPU)。这些计算被储存在了神经连接矩阵中,编程被学习算法取代了。研究者称:“并行分布式加工法能够解决经典人工智能法不能解决的问题。”

尽管神经网络和机器学习被证明在完成特定种类的任务时非常有效,但它们并没有缩小人工智能与生物智能之间的差距,除了在一些非常狭窄的领域,比如在光学字符识别领域中。难道是我们遗漏了什么吗?有一种可能性是,即使是神经网络也还不够“生物性”。例如,在有关并行分布式加工的论文中,我探讨了为神经网络求和节点赋予更多复杂性的可能,比如为神经元精细复杂的树突树提供复杂性,这会从本质上提升这些计算网络的效力。但是这种优势只是数量上的,提高特定种类的生物保真性几乎不会让我们如愿地缩小计算机与生物之间的差距。另一种更流行的观点是,我们需要发展更复杂的学习算法。确实,一开始作为神经网络领域一流会议之一的神经信息处理系统会议(Conference and Workshop on Neural Information Processing Systems)很快发展为几乎只聚焦于机器学习的会议了。但迄今为止,研究者在机器学习方面几十年的研究并不足以破解人类大脑。

如何让人工智能追上生物智能

如何让人工智能追上生物智能呢?此刻,我必须认真对待这样的可能性:更接近生物现实的网络或更好的学习算法都解答不了这个问题。相反,生物有机体能够非常有效地进行某种计算,因为它们发展出了一套高度专门化的最优算法,它们有一个“技巧锦囊”。这些技巧能够让它们应对许多特殊情况和意外,这就要求算法在现实世界中的各种情境下都是有效的。希望用一套统一的原理来解释生物计算的理论学家十分反感这个观点。然而,考虑到有机体承受了几亿年的进化压力才进化出了有效的“技巧锦囊”,那么上述观点或许是明智的。大脑可能像盖瑞·马库斯所说的,是一个“拼凑起来的系统”,它通过笨拙也不简洁的方式来完成任务,毫无美感。

技巧锦囊的存在假设并没有否定生物有机体通用算法的必要性,只暗示了通用算法是不充分的。即使业余魔术师手里握有最好的技巧锦囊,他也表演不出好魔术。同样,作为搜索引擎,谷歌成功的核心在于它的网页级别算法,这种算法会根据指向网页链接的数量和质量来安排网页的等级。谷歌目前在搜索方面出类拔萃的原因在于它精心选择的200多个“技巧”,比如页面的时效性和用户的地理位置等。技巧锦囊的假设提出了这样一种可能性,即生物智能或许代表了人类“训练集”的精华,它们是人类几亿年进化过程中无数祖先历经生死的经验传承。人类的训练集太小了,即使是最复杂的学习算法也无法发现它们。

我很不情愿把技巧锦囊看成生物智能始终胜过人工智能的原因,因为这就暗示着不存在能够揭示大脑工作原理的伟大发现。相反,技巧锦囊的模型显示,如果我们想制作出在解决某些现实世界的问题上表现良好的机器,那么我们就必须分析生物智能使用的技巧,或者发明我们自己的技巧。单个神经元层面上的连接组能够为我们提供反向设计大脑所需的信息。

这里有个好消息是,制作机器所需的工具和技巧几乎就在我们能力所及的范围内。

为了洞悉生物智能,我们需要研究大脑新皮层。大家普遍认为新皮层是赋予人类智能的组织结构。新皮层是哺乳动物所独有的,而灵长类动物,尤其是人类的新皮层最为精巧复杂。所有哺乳动物的大脑的新皮层的基本结构具有很大程度的相似性,因此啮齿类动物的一块新皮层与猴子相应部分的新皮层看起来并没有很大不同。在同一个有机体中,新皮层结构相当一致,因此一小块与加工声音有关的新皮层与另一块加工触觉的新皮层没有什么太大差异。

基于这些思考,研究者认为大脑新皮层是模块化的结构。兽孔目爬行动物似乎进化出了新皮层以完成生存中非常具有挑战性的任务。从行为更加灵活、有了环境适应性的角度来说,假定拥有更大的大脑能够赋予有机体进化优势;但从进化的角度看,在神经回路中增加新神经元的必要性似乎并不那么明显。因为适合小回路的组织架构不一定适合大回路。全部对全部的连接会使神经元的数量翻一番。例如,10个神经元之间全部对全部的连接仅需要100个连接,而在100万个神经元组成的回路中,连接的数量将达到10 000亿个,而随着神经元数量的增加,这很快就会变得不切实际。另外,模块化有助于解决大脑布线的发展问题。在某些有机体中,比如秀丽隐杆线虫的整个神经回路包含302个神经元,大约7 000个突触,它的神经回路是由基因组精确限定的,但在基因组中明确规定每一个连接就变得不切实际了,因为规定所有连接所需的节点超过了基因组中的节点。

我们通常认为,基础的新皮层模块是相同的新皮层柱,即垂直排列的皮层神经元集合。它们对感觉输入会做出相似的反应。然而,了解新皮层模块不仅需要我们了解新皮层柱内的局部回路,还需要了解模块的输入和输出。给定的新皮层区域不仅与其他新皮层区域紧密相关,而且与其他结构也有联系,比如丘脑和纹状体。

新皮层结构的模块化使我们有望搞明白生物智能。我们的目标应该是了解新皮层模块的基本组织结构,以及它与其他模块的连接方式。我们还要了解其他脑区的模块是如何履行特定功能的。大部分或全部新皮层模块具有相同的皮层架构,这可能反映了新皮层算法共享的结构,而仅在专门化的皮层中才有的回路则可能反映了加工特定类型信息所需的特殊技巧。了解新皮层的这些基本组织原则,将会为我们破译技巧锦囊提供依据。从这个观点来看,皮层不需要任何本质上的特殊性。相反,了解它只是破译技巧锦囊的先决条件。同样,学习FORTRAN语言是学习许多有助于数值分析的算法的先决条件。数值分析就是在C语言或其他语言中能够被反复执行的算法。一旦我们弄明白了新皮层计算的基本原则,便要确信自己可以在人造硅大脑中再次进行这些计算了。

为了反向设计生物智能,我们必须了解特定的神经回路是如何定义良好这一问题的。如今,我们实施这类研究的典型有机体是小鼠。小鼠具有遗传学上的可获得性,这让我们能够对其采用现代分子生物学的全部设备。小鼠能够通过训练学会复杂的感觉运动任务,这类似于使用非人类的灵长类动物做实验。而且,运用双光子钙成像技术(见主题1中的第2章),我们可以同时监控几百或上千个神经元的活动。一些其他方法,比如美国西北大学的康拉德·科尔丁(Konrad Körding)和乔治·丘奇提出的DNA记录显示带(DNA ticker tape),借助它我们便有可能记录更多神经元的活动。这样,我们就有可能记录并操纵正在活动的动物,而这类活动需要特定的大脑计算。

揭示回路详尽的布线情况,即连接组的技术目前还比较落后,我们现在只能依靠显微镜技术。然而,显微镜技术非常不适合研究神经连接,因为大脑属于宏观结构,而毫无歧义地确定突触连接需要使用电子显微镜。到目前为止,我们已经确立了秀丽隐杆线虫的完整连接组。确定这么简单的连接组,即302个神经元被大约7 000个突触连接起来依然是一个了不起的壮举,它使50个人花了数年辛苦工作。

用电子显微镜重建连接组面临两个重要的挑战。基于电子显微镜的重建需要我们对非常薄的、大约10纳米的二维大脑组织切片进行成像,然后将连续的切片排列起来,从中推导出三维结构。第一个挑战在于,获得数据非常困难。传统的电子显微镜方法既不具备必要的通量,也不准确。即使缺失几个切片也会严重影响重建任务,而且必须具备极其可靠的切片方法。第二个挑战就是分析数据。从二维切片推导三维结构,需要在每个连续成像中匹配相应的神经元结构。因此为了追踪1毫米的轴突活动,我们便需要追踪大约105个切片中的轴突。一个切片中的错误便有可能使某个轴突活动被归入错误的细胞体。尽管在改进电子显微镜技术的通量和准确性上,我们最近取得了显著的进步,但将它用于连接组学来说依然是一个挑战,尤其是当研究长距离的连接时,比如研究丘脑、纹状体和其他皮层区域之间的连接时。

然而,受制于单个神经元的分辨率,解析连接组目前还没有其他可以替代电子显微镜技术的方法。

新的挑战:单个神经元连接条形码

为了应对电子显微镜技术带来的巨大挑战,我们实验室正在开发一种全新的方法,即单个神经元连接条形码(Barcoding of Individual Neuronal Connections,BOINC)。

大脑新趋势

单个神经元连接条形码技术依靠的是高通量DNA测序。这项技术最初是为了对人类和其他有机体进行基因组测序研发的。使用这种测序方法的好处在于,它的价格下降了很多:现在对整个人类基因组,即大约30亿个核苷酸进行测序只需要花费1 000多美元。在2007年时,其费用为100万美元。在2001年,人类基因组项目为此花费了20亿美元。摩尔定律提出,计算机的计算能力每两年会翻一番,测序成本的下跌速度甚至超过了摩尔定律。DNA测序技术之前没有被用于连接组学,但我们想,如果能把神经连接转化为测序问题,那么这种成本较低的技术就具有了可用性。

为了把神经连接转化为测序问题,我们尝试了几种策略,但所有的单个神经元连接条形码法都必须应对3个挑战。第一,我们必须表达不同大脑中每个神经元独特的DNA序列,即DNA的“条形码”。DNA是由4种核苷酸A、T、G、C组成的长链,包含30个核苷酸的随机长链条形码可以标记430=1018个神经元,这个数字远远超过了小鼠皮层中神经元的数量。这样,绝大多数的神经元都会有独一无二的条形码。第二,我们必须诱导由突触连接起来的每个神经元与它的同伴神经元共享条形码的副本。第三,我们需要把突触前条形码和突触后的条形码连接成适合高通量DNA测序的单一模块。成对连接的突触前条形码和突触后条形码说明了两个神经元被连接在了一起。因此,通过观察成对的条形码,我们就能直截了当地知道连接矩阵中有哪些神经元。

我们面临的第一个挑战是,给神经元设置条形码。最快的解决方法是制造转基因小鼠,在小鼠体内设置一个基因组暗盒,即被插入染色体已知位置的特定序列:它们会被随机混杂在每个神经元中。基因组暗盒包含特定的DNA短序列,被称为“重组酶点”S,它从一侧对序列X1,X2,…,XN进行干预,其中X被用来表示核苷酸组成的短序列,比如X=AAGGCCCCATTA。经过改造的转基因小鼠还能短暂表达一种特殊的蛋白质,即“重组酶”,它会把一对重组酶点之间的DNA颠倒过来。这样某个神经元中最初的序列S X1 S X2 S X3 S可能被打乱,形成S x3 S X1 S x2 S这样的序列,其中小写字母表示被颠倒的序列,在这个例子中x=ATTACCCCGGAA。在另一个神经元中,这种扰乱可能会产生序列S X2 S x3 S X1 S。通过这种方法得到的理论多样性D会随着干预序列N的增加而迅速增加,D=2NN!。这就像序列数N在玩纸牌,假定除了能洗牌之外,还可以被翻成正面朝上或朝下。尽管这种重新组合或打乱看起来异想天开,但它其实是对脊椎动物免疫系统中的抗体多样性的类比。重新组合则解决了如何赋予每个细胞独特的序列问题,因为所有细胞都源自一个受精卵。在默认情况下,它们具有完全相同的基因。

我们面临的第二个挑战是,在由突触连接的两个神经元之间分享条形码。我们之前基于伪狂犬病病毒提出了一种解决方法。伪狂犬病病毒属于疱疹病毒,像所有的病毒一样,在本质上是遗传物质包裹着一层蛋白质外衣。然而,与大多数病毒不同的是,伪狂犬病病毒在神经元之间的间隙繁殖。伪狂犬病病毒通过这种繁殖方式避开免疫系统的监控,潜藏在神经元中。由于伪狂犬病病毒在突触间的传播非常快,因此神经科学家长期以来用它追踪神经回路。追踪研究通常用的是一种减毒形式的伪狂犬病病毒,它只在逆行方向上繁殖。利用单个神经元连接条形码法,我们对伪狂犬病病毒中的遗传物质进行了改造。我们增加了一个条形码,因此神经元会把条形码传递给通过突触与它连接在一起的同伴神经元。这样,每个神经元便成了一个条形码包,里面装着它自己的条形码副本,还有与它通过突触连接起来的同伴神经元的条形码。

我们面临的第三个挑战是,在神经元中将条形码连起来。为了实现这个目标,我们表达了一种特定的蛋白质,即整合酶。就像前文描述的使DNA颠倒顺序的重组酶一样,整合酶也通过成对的整合酶点来起作用。然而,整合酶不可逆地将DNA连接起来,将两个DNA合成一个。通过确定整合酶点旁侧条形码序列的位置,便可以知道这个DNA片段包含两个条形码。我们可以用传统的方法将这个DNA片段放大,然后进行高通量的测序。

相对于电子显微镜,单个神经元连接条形码法有两个重要的优势。第一,它比电子显微镜便宜很多。鉴于目前的成本,对具有不到107个神经元和大约1010个突触的小鼠皮层进行测序,需要花费几周的时间和大约10 000美元。随着测序技术的发展,花费的时间和成本还会进一步降低。第二,单个神经元连接条形码法特别适合研究远程投射,因为出错率不会随着投射长度的增加而增加。单个神经元连接条形码法不仅可以被用来研究皮层模块中的局部回路,还可以用来研究远程连接。

形式最简单的单个神经元连接条形码法存在两个局限:(1)这种方法没有对空间的自然表征,因此条形码无法提供它在回路中的空间位置信息,我们无法知道它是在听觉皮层中还是在视皮层中;(2)这种方法没有细胞类型的自然表征,因此条形码无法提供相关神经元是兴奋性的还是抑制性的信息。第一个问题的解决方法是,在提取核苷酸条形码之前,追踪条形码在分解时获得的脑区信息。使用这种方法时,空间分辨率为100微米或更低,足以将每个条形码分配到确定的解剖区域。第二个问题的解决方法是,不仅给突触连接设置条形码,而且还要给指定神经元相关的转录组设置条形码。转录组是信使RNA转录物的集合,它将细胞的DNA与它所表达的蛋白质结合在一起。这些信使RNA能够确定神经元是兴奋性的还是抑制性的,并且还能提供其他信息,比如神经元所在的皮层。因此,我们设想出了一个连接矩阵,其中与每个神经元条形码相连的是一些额外的信息,这些信息规定了神经元在回路中的位置及特性。

如果有一种方法既便宜又能快速破解神经元回路的地图或者整个有机体的大脑地图,那么它就能够对神经科学的研究产生深远的影响。科学家认为许多神经性精神病,比如孤独症和精神分裂症,源自遭到破坏的神经元连接。但就目前的技术来说,即使确定小鼠大脑内的这种破坏也依然是一个巨大的挑战。更重要的是,神经元地图的知识将为我们了解神经元的功能和发展提供基础,就像完整的基因组序列的知识为后基因组时代的现代生物学研究提供了支撑一样。尽管单个神经元连接条形码法可能无法解析大脑,但它一定会让我们离目标更近一步。