上QQ阅读APP看书,第一时间看更新
第四节 人类基因组分析概论
基因组是指一个生命体内所包含的所有DNA的总和,对整个基因组的研究称为基因组学。1990年,人类基因组计划(Human Genome Project,HGP)正式启动,旨在通过对人类基因组DNA测序,获得基因组的序列信息,从而了解疾病的发生、发展等复杂过程。随着HGP的推进,近些年又实施了人类单体型图谱计划(Human Haplotype Map Project,HapMap)、DNA 元件百科全书计划(Encyclopedia of DNA Elements,ENCODE)等,不断地促进疾病诊断和治疗发展。同时很多人类基因组研究结果都是网络共享资源(表2-1)。
表2-1 人类基因组生物学变异相关数据库
续表
一、人类基因组计划
人类基因组计划(Human Genome Project,HGP)由美国国家能源部和美国国立卫生研究院于1990年正式启动,主要目标包括:对组成人类基因组的30亿对碱基序列进行测定和定位;对一些模式生物的基因组进行测序和定位,包括细菌、酵母、植物、线虫、果蝇和小鼠;鉴定出人类基因组中的所有基因;建立软件和数据库用以支持大数据的收集、存储和使用,并建立分析大数据的工具;建立和基因组研究相关特别是交叉学科的培训标准;所得数据的共享和转化以及人类基因组计划带来的伦理道德、法律及社会问题的研究。因此,严格来说人类基因组计划是一个不准确的名字,因为该计划也对各种模式生物的基因组进行了研究。
经过13年的努力,科学家们于2003年4月宣布人类基因组计划完成。该计划的完成使人们对人类基因组有了全新的认识,并且发现了很多有趣和出乎意料的结果,包括:①蛋白质编码基因仅有20 000~25 000个,比预期的100 000大大减少,而且这一数字和很多模式生物的基因组相近;②人类基因组只有大约1%~2%的序列是蛋白编码基因;③最常见的DNA多态是单个碱基的改变,即SNP;④在人类基因组中有很多由于不同片段缺失或重复造成的结构上的变异。这些发现大大推动了对人类基因组的研究,并且随着更快速、精准和低成本的分析平台的建立而逐渐得到发展。
二、人类基因组单体型图谱计划
人与人之间大于99.9%的DNA序列是一致的,但仍有小于0.1%的DNA序列在不同人中存在差异,这是人与人之间差异产生的主要原因之一,也是人们罹患疾病的风险不同和对药物的不同反应的主要原因。人群中存在大量SNP位点,相邻SNPs的等位位点倾向于以一个整体遗传给后代。位于染色体上某一区域的一组相关联的SNP等位位点被称作单体型(haplotype)。因此,2002年国际人类基因组单体型图谱计划,简称HapMap计划正式开始实施,旨在建立一个发现人类疾病及其对药物反应的相关基因的公众资源平台。项目通过确定单体型,使单体型图成为用于进行关联研究的一个工具。在关联研究中,研究人员将患者的单体型与健康人(对照)的单体型相比较。与对照相比,如果某一种单体型在患者中经常出现,影响该疾病的基因可能就存在于这个单体型内部或附近。
历时3年,HapMap计划组宣布了一个拥有数亿数据的人类基因组单体型图的成功构建。该项目共针对100多万个SNPs位点构建了密度约3.6kb的数据库和HapMap。这一计划的完成促进了人类对于基因的认识,对人类健康研究产生了重要的影响。首先,在计划进行过程中,提出了全新的结构差异和拷贝数变异概念。其次,HapMap计划对于基因组科学和系统生物学具有极大的推动作用。HapMap计划为人类基因组提供了全基因组SNPs的群体分布图谱并揭示了人群内的遗传结构,为群体基因组学(population genomics)奠定了重要的基础。同时,HapMap计划的开展揭开了通过SNP分型来进行病例-对照关联分析的序幕。HapMap计划的完成使全基因组关联分析(GWAS)在全球范围内得到普及,即直接通过对大样本进行整个基因组的关联分析研究,将通过DNA测序或基因芯片得到的SNP信息与疾病的风险进行关联,而得到疾病相关的SNP信息。
三、DNA元件百科全书计划
在细胞中,DNA转录产生RNA,RNA翻译产生蛋白质,各个环节都是受到严格的调控,而这些调控不仅仅只受到基因序列的影响,更多的是基因序列之外的调控元件参与到这样的过程中。因此在人类基因组计划的基础上,美国国家人类基因组研究所于2003年启动了DNA元件百科全书计划,其目标是鉴定人类基因组中全部的功能元件。功能元件的定义是指对那些可用生物化学方法检测到的活性(如RNA转录、转录因子结合及染色质重塑等)可以产生影响的DNA序列。
DNA元件百科全书计划前期的结果指出了基因组中功能元件的密度和多样性,以及这些功能元件和进化保守相关性的实验研究结果。同时前期结果还对复杂基因组转录做了一些研究,鉴定了许多新的转录起始位点(transcription start sites,TSSs)和非蛋白编码转录本。另外,还做了有关组蛋白修饰、转录因子及染色质等相关研究。2007年9月ENCODE计划进入了全面实施阶段,着眼于整个基因组,并且研究方法也从芯片或高通量PCR转向了测序。运用染色质免疫共沉淀结合新一代测序技术(ChIP-seq)、RNA测序(RNA-seq)技术等高通量技术手段,提供了多达147种不同细胞类型的多种调控元件的信息。人类基因组计划完成时人们认为仅有2%的基因区域具有转录的潜能,但是通过ENCODE计划,科学家们发现基因组中80%的位置都可以被转录,且这些被转录的RNA大部分都是非编码RNA,这些非编码RNA在细胞中不编码蛋白质,但是在细胞中发挥着非常重要的调控功能。ENCODE计划的成功完成为基因组研究提供了强大的数据库,更新了人们对于基因表达控制的认识,同时发现了大量非编码RNA,提供了一系列算法和数据阅读平台,这将对生物医药等多个领域产生重要的影响。
四、其他人类基因组研究
除了上述基因组研究之外,人们也在从其他不同方向对基因组进行研究,如2008年启动的表观基因组学路线图项目(Roadmap Epigenomics Program)。在体内DNA通过和组蛋白、序列特异性结合蛋白、染色质调节因子和一些辅助调节因子的相互作用而进行DNA包装,这样就使DNA的功能可以在除了碱基序列以外的多个水平进行调节。所谓“遗传学”特征是指基因组序列的差异,而“表观遗传学”特征即指DNA在包装成染色质的过程中与不同的组蛋白和多种非组蛋白相互作用,从而影响基因或其他基因组序列的可用性和活性。表观基因组学路线图项目目标就在于研究主要的人类正常细胞类型的表观基因组以及不同生物学和临床表型的表观基因组特征。
同时,近几年的研究进一步揭示,DNA和调控元件是处于一个细胞的三维空间中,基因组的三维结构也是基因调控中非常关键的一个环节。为了深入认识基因的三维调控模式,科学家们于2014年开始提出人类三维核小体计划(Human 3D Nucleome Project),旨在探究细胞核结构和基因三维调控方式。