我辽阔广大,我包罗万象
2001年是第一个人类基因组测序完成的年头,也就是说,在这一年,人类基因组中绝大部分的字母都被解读出来了。这些序列的70%来自一个非裔美国人,剩下的则来自其他人。到了2006年,有一些公司开始销售新的基因测序机器,将解读DNA字母的成本降低到万分之一以下,而且很快又降低到十万分之一以下,这就使得绘制更多的基因组图谱变成了一件经济可行的事情。于是,人们终于可以不再局限于基因组里少数孤立的位置上,例如线粒体DNA,而是直接比较全基因组的信息。这样一来,我们可以重建每一个人基因组里成千上万的遗传路线。科学家们研究人类历史的方式彻底改变了。他们可以收集比以前多上好几个数量级的数据,以此来检验全基因组所反映的历史与从线粒体DNA、Y染色体中挖掘出来的信息是否一致。
在2011年,李恒和理查德·德宾(Richard Durbin)发表了一篇论文,终于将这种想法从纸上谈兵变成了切实可行的成果。他们表明,从一个人的基因组中的确可以挖掘出众多祖先的信息(见图5)。为了从DNA中解码出一个人群的发展历史,李恒和德宾利用了这样一个事实:任何一个人类个体携带的基因组都不是一个,而是两个,一个来自父亲,一个来自母亲。所以,通过计算一个人的两个基因组之间差异的密度,我们就可以推断这两个基因组在不同位置上的共同祖先所存在的时间。把基因组内成千上万的共同祖先按照他们所存在的时间划分,李恒和德宾就推导出不同时代的祖先人群的大小。在一个规模较小的人群中,两个随机选择的基因组序列来自相同的亲本基因组序列的概率还是挺可观的,只要携带这对基因组序列的两个个体正好有同样的父母就可以了。然而,如果人群规模比较大,那这种概率就微乎其微了。所以,只要能找到在什么时间段,基因组很多位置的共同祖先都集中分布在此,那就说明那个时候人类的群体规模较小。
图5 确定人类遗传学共同祖先出现的时间
这不禁让我想起了诗人沃尔特·惠特曼(Walt Whitman),在《我自己的歌》(Song of Myself)中,他写道:“我自相矛盾吗?/那好吧,我是自相矛盾的,/(我辽阔广大,我包罗万象)。”惠特曼的诗歌恰到好处地演绎了李恒和德宾的努力,似乎早就告诉了我们小中蕴大的道理:一个人的基因组内能记录众多祖先的历史,一个人身上能承载一个人群的过去。
李恒和德宾的研究还有一个意想不到的发现——在非洲以外人群和非洲人群分离之后,非洲以外人群的规模曾经在较长的一个时期内变得很小,其证据是在这个长达几万年的时间段内存在着许多共同祖先。这个发现本身并不新鲜,以前人们就知道非洲以外人群历史上发生过一次“人群瓶颈事件”(bottleneck event),也就是历史上人口突然减少的事件,当时的少数个体衍生出今天大量的后代。
但是,在李恒和德宾的研究之前,我们对这一事件的跨度只有一个很模糊的认识,而且之前认为该阶段也就是持续了几代人的时间而已,比如说,一小群人越过撒哈拉大沙漠进入了北非,或者从非洲进入了亚洲。人们原来曾设想,大约5万年前以后,现代人就开始势如破竹地在非洲内外迅猛扩张,而李恒和德宾发现的证据则与此不符,我们祖先的人口规模在很长的一段时间里都很小。现代人的历史也许没有这么简单,并不是一伙占据优势地位的现代人群体到处无往而不利的故事。