第一章 基因的结构与功能
1.1 细胞的结构
细胞是组成生物体的基本单位,是生物活动的基础,是生物体的遗传控制中心。无论多么复杂的生物,一切生命活动都是发生在细胞中,生命的各种活动,如生长、发育、遗传等,都是在细胞的基础上实现的。
细胞包括细胞膜、细胞质、和细胞核。植物细胞和细菌还含有细胞壁。细胞质是细胞中除了细胞核以外细胞膜以内的原生质。但细胞质并不是均匀的,其中包含了许多有形结构,这些有形结构被称为细胞器:线粒体、核糖体、溶酶体、高尔基体、中心粒、液泡等。根据有无核膜可以将细胞分为原核细胞和真核细胞两大类。原核细胞最主要的特征是没有由膜包围的细胞核,遗传物质均匀分布于整个细胞中或集中存在于细胞的一个或几个区域中。这些区域中物质密度较低,但与周围高密度的细胞质无明显的分界,故把这种低密度区称为类核。类核中含有盘绕的细丝,这些细丝是不结合蛋白质裸露的DNA双螺旋。真核细胞最主要的特点是细胞内有膜,把细胞分成了许多功能区。最明显的是含有膜包围的细胞核,此外还有由膜形成的细胞器。
1.1.1 细胞膜和细胞壁
细胞膜又称质膜,它是细胞的表面边界,其主要构成物质是磷脂分子,而磷脂是一种双亲性分子,其中拥有磷酸基团的一端亲水,而拥有脂肪酸长链的另一端疏水。从结构上看,细胞膜由两层磷脂构成,两层磷脂分子都是疏水端向内,亲水端向外。这样可以保护水和其他物质,防止其流失。当然,细胞膜不仅是细胞把其内部与周围环境分开的边界,更重要的是,它是细胞同周围环境或其他细胞进行物质交换的通道。细胞膜最重要的特性之一是半透性,即有选择地允许物质通过扩散和主动运输等方式出入细胞,从而保证细胞的正常代谢。细胞膜是细胞进行生命活动的重要结构基础,细胞的能量转换、蛋白质合成、信息传递、运动、分泌、排泄、物质运输等活动都与膜的作用有关。植物细胞在细胞膜之外还有细胞壁,它是无生命的结构,其组成成分是细胞分泌的产物,其功能是使植物细胞保持一定的形状和一定的渗透压。
1.1.2 细胞核
细胞核包含以染色质形式而存在的遗传物质,染色质上有处于不同构象的DNA长链,这些DNA长链被核蛋白所包裹。一层核膜包围着细胞核,使之与细胞的其他部分分离。细胞核在细胞的代谢、生长、和分化中起着重要的作用,它是细胞的控制中心。细胞核内的核仁是随细胞分裂周期性产生和消失的圆形小体,核仁的中心是核仁组织区的特定DNA片段,这是一些转录rRNA的基因。核仁实际上是rRNA合成、加工以及装配成核糖体亚单位的场所。此外,细胞核内还有核骨架和核液等。
1.1.3 细胞质和细胞器
在细胞膜与细胞核之间是透明、粘稠的胞质胶状聚集体。对于原核生物来说,细胞质包含细胞的所有物质;对于真核生物,细胞质包含除细胞核之外的所有物质,包括各种细胞器。线粒体是细胞中的能量加工厂,是细胞呼吸和能量代谢的中心,它含有细胞呼吸所需要的各种酶和电子传递载体,可以将各种养料的潜能转化成细胞实现各种活动所需的能量。叶绿体是植物细胞特有的一种能量转换器,它是进行光合作用的中心。内质网是细胞内的一个复杂的膜系统,具体说是由细胞内囊腔和细管彼此相连所形成的管道系统,它是蛋白质和脂肪合成的场所。溶酶体的功能是消化从细胞外吞入的颗粒和细胞本身产生的碎渣,溶酶体内含有许多水解酶,可催化蛋白质、多糖、脂类以及DNA和RNA等大分子的降解。核糖体是由蛋白质和RNA组成的复合物,它是蛋白质分子的合成场所。真核生物细胞中普遍存在由蛋白质纤维组成的三维网架结构,即由微管、微丝和中间纤维构成的细胞质骨架。微管与构建细胞壁、细胞定形、细胞内物质运输、信息传递及细胞的运动密切相关,微丝与肌肉收缩、细胞变形、细胞质流动等有关,中间纤维可能与细胞核定位、信息传递以及mRNA运输有关。鞭毛和纤毛是细胞表面的附属物质,它们的功能是促进细胞运动。
生物体是由一个或多个细胞所组成的。多细胞生物的一个主要优点是细胞类型的分化。分化的细胞具有各种特定的功能,执行特定的任务;而不同的细胞可以相互合作,完成单个细胞所不能完成的工作。特定功能的细胞聚集在一起,形成组织。人类有上皮组织、结缔组织、肌肉组织、神经组织等多种主要的组织类型。当一个细胞分化后,不能再转变成其他类型的细胞。虽然各种细胞的功能不同,但是它们具有相同的遗传物质、相同的基因,不同的仅仅是基因的表达模式。
1.2 基因的概念和化学组成
1.2.1 基因的概念
基因(gene)一词是丹麦遗传学家Johannsen于1911年首次提出的。现在已经是众人皆知的名词,但其概念的内涵从提出到现在也在不断的发展。摩尔根(T.H.Morgan)是第一个从分子水平上考虑基因的遗传学家之一,他根据果蝇基因连锁交换规律和伴性遗传的研究,认为基因是一个化学实体,它既是遗传的功能单位,又是交换的单位及突变的单位。具有以下的含义:(可以复制,由一代传至下一代;(不能由交换再行区分;(可突变成一改变了的状态。1944年,埃弗里(O.T.Avery)等人通过著名的肺炎球菌转化实验,首次证明了基因的化学本质是 DNA,而基因则是 DNA分子上的功能单位。1953年,沃森(Wation)和克里克(Crick)提出了DNA结构的右手双螺旋模型。从此,基因就成了生物学和遗传学所研究的主要对象,为探明基因的结构、表达和调控的分子遗传学便应运而生。1955年,本泽(S.Benzer)研究了T4噬菌体和rⅡ区的精细结构,他认为顺反子(基因)是遗传上一个不容分割的功能单位,但它并不是突变单位或重组单位。实际上基因是一个为多肽编码的DNA片段,它的内部可以发生突变或重组,这在基因概念上是个突破。断裂基因的发现对传统的基因概念是一个挑战,一个基因断裂为几个外显子(exon),一个外显子相当于蛋白质的一个结构单位(又叫结构域)。有机体只要改变RNA的剪接方式就可以很方便地利用原有基因片断来重组成一个新的基因。1985年Gilbert提出基因是一个转录单位,它由在成熟信使中要失掉的内含子(intron)与被表达的外显子交替组成。随着基因组研究的深入,DNA重组技术的发展使我们把基因与一特定的DNA区段联系起来,并发现基因的产物是蛋白质,也可能是RNA。在基因组学时代,在分子水平上定义基因为一段制造功能产物的完整的染色体片段(a complete chromosomal segment responsible for making a functional product)。通俗的讲基因是编码蛋白质或RNA分子遗传信息的遗传单位,从化学角度观察,基因是DNA上一段具有特定功能和结构的连续的脱氧核糖核苷酸序列,是构成染色体的重要组成部分。这个定义包含了基因的产物、基因的功能性,以及它的完整性(含编码区与调控区)。
1.2.2 基因的化学组成
DNA完全水解产生嘌呤和嘧啶等碱性物质、戊糖(核糖或脱氧核糖)和磷酸的混合物。DNA部分水解则产生核苷和核苷酸。每个核苷分子含一分子碱基和一分子戊糖,一分子核苷酸部分水解后除产生核苷外,还有一分子磷酸。DNA的各种产物可用层析或电泳等方法分离鉴定。DNA的逐步水解过程可总结如图1-1。
图1-1 DNA连续水解的降解产物
1.脱氧核糖
DNA含D-2-脱氧核糖,是β-D-型。
2.嘌呤碱和嘧啶碱
DNA分子中有两类碱基:嘌呤碱和嘧啶碱。嘌呤碱主要有腺嘌呤(adenine,A)和鸟嘌呤(guanine,G);嘧啶碱主要有胞嘧啶(cytosine,C)和胸腺嘧啶(thymine,T)。
图1-2是各种嘌呤碱和嘧啶碱的结构式。嘌呤环和嘧啶环上各原子的标号是目前国际上普遍采用的统一编号(依化学文摘)。
3.核苷与核苷酸
核苷是由碱基与戊糖缩合形成的化合物。碱基与脱氧核糖缩合形成脱氧核糖核苷。如腺嘌呤与脱氧核糖缩合生成腺嘌呤脱氧核苷,简称脱氧腺苷,其他核苷可依此命名:鸟嘌呤脱氧核苷(脱氧鸟苷),胞嘧啶脱氧核苷(脱氧胞苷),胸腺嘧啶脱氧核苷(脱氧胸苷)。
图1-2 嘌呤和嘧啶的结构
核苷分子中戊糖环上的羟基磷酸化,形成核苷酸,也可称为磷酸核苷。脱氧核苷酸的糖上只有2个自由羟基,只能生成3′-和5′-脱氧核苷酸。自然界存在的游离核苷酸为5′-磷酸酯,所以通常将核苷-5′-磷酸简称为核苷-磷酸,其代号也略去“5′”。现将DNA中主要的碱基、核苷和核苷酸总结如表1-1,其代号写在括号中。
表1-1 组成DNA的戊糖、碱基、核苷及相应的核苷酸
1.3 DNA的一级结构
1.3.1 核苷酸的连接方式
图1-3 核酸的一级结构及简写法
构成DNA大分子的基本单位是核苷酸。很多实验证明DNA是没有分支的多核苷酸长链。链中每个核苷酸戊糖上的3′-羟基和相邻核苷酸戊糖上的5′-磷酸相连。因此,核苷酸间的连接键是3′,5′-磷酸二酯键,由相间排列的戊糖和磷酸构成DNA大分子的主链,而代表其特性的碱基则可以看成是有次序地连接在其主链上的侧链基因。主链上的磷酸基是酸性的,在细胞的PH条件下带负电荷;而嘌呤碱基因相对不溶水于水而具有疏水性质。另外,由于所有核苷酸间的磷酸二酯键有相同的走向,DNA链有特殊的方向性,多核苷酸链的两个末端分别称为3′-端和5′-端,3′-端带有自由的羟基,5′-端带有游离的磷酸基团,通常以5′→3′方向为正向,书写时将5′-端写在左侧(头),3′-端写在右侧(尾)(图1-3(1))。
1.3.2 DNA的一级结构
各核苷酸残基沿多核苷酸链排列的顺序(序列)叫做核酸的一级结构。核苷酸的种类虽不多,但可因核苷酸的数目、比例和序列的不同构成多种结构不同的核酸。由于戊糖和磷酸两种成分在DNA主链上不断重复,也可用碱基序列表示DNA的一级结构。
常用一种简单的示意法来表示核酸的一级结构。其中的垂直线表示糖的碳链,它的C′1处连接着碱基。从垂直线中部画出的对角线表示C′3上的磷酸酯键,而从垂直线不连碱基的那一端画出的对象线则表示C′5上的磷酸酯键,也可以把垂直线画成水平线。用P表示一个磷酸基团。各种简化式的读向是从左到右,所表示的碱基序列是从5′到3′,核苷酸之间的连接键是 3′,5′ -磷酸二酯键(图(2))。1 -3
1.4 DNA的双螺旋空间结构
1.4.1 DNA的二级结构
DNA的双螺旋结构模型是 Watson和 Crick于1953年提出的。DNA右手双螺旋结构模型的要点如下(图1-4):
(1)DNA分子是由2条方向相反的平行多核苷酸链围绕同一中心轴旋转而构成的右手双螺旋结构。因为磷酸与核糖是亲水的,而碱基是疏水的,所以主链在螺旋外部,而碱基则处于螺旋内部。双螺旋表面有2条沟,较浅的称为小沟,较大的称为大沟,对蛋白质和DNA的相互识别起重要作用。
(2)双螺旋直径为2 nm,相邻碱基对平面间的距离为0.34 nm,每10个核苷酸残基旋转1周,螺距为3.4 nm,旋转36 °。
(3)两条链由碱基间的氢键相连。因为碱基结构的不同,使得A只与T配对,G也只与C配对。这种A-T,G-C配对的规律称为碱基互补原则。因此,有四种可能的碱基对,即A-T,T-A,G-C和C-G。A和T间形成二个氢键,G和C间形成三个氢键。配对的碱基在同一平面上,与螺旋轴呈垂直状态。由于四种碱基对的大小几乎相同,所以无论碱基顺序如何,双螺旋DNA分子整个长度的直径相同。
图1-4 DNA分子双螺旋结构模型(a)及其图解(b)
DNA双螺旋结构的稳定性主要由3种作用力来维持:第一种力是互补碱基之间的氢键,但这种力比较小;第二种力是DNA分子中碱基的堆积可以使碱基缔合,称为碱基堆积力,是维系DNA双螺旋结构稳定的主要作用力;第三种力是磷酸基的负电荷与介质中的阳离子的正电荷之间形成的离子键。
双螺旋结构模型的提出,以及碱基配对规律的确定,大大推动了DNA复制、RNA转录和蛋白质生物合成过程的研究,揭示了生物界遗传性状得以世代相传的分子奥秘,推动了遗传学、生物学从细胞水平正式进入分子水平阶段,具有划时代的意义。
除了某些噬菌体的DNA是单链分子外,大多数天然DNA具有双螺旋结构。Watson和Crick提出的DNA双螺旋结构属于B-DNA,这是DNA分子在水性环境和生理条件下最稳定的结构。然而以后的研究表明DNA的结构是动态的,体现了DNA结构的多样性。1979年, Rich等在研究人工合成的CGCGCG的晶体结构时,意外地发现其二级结构为左手双螺旋结构。主链中磷原子的连接线呈锯齿形,好似Z字形扭曲,故称其为Z-DNA。生物体内也含有Z-DNA,可能与致癌、突变及基因调控等重要生物功能有关。之后又发现了A-DNA, A-DNA也是右手螺旋,它与B-DNA的不同之处是碱基不与纵轴相垂直,而呈20(倾角。这些不同构象的DNA在功能上有所差异,可能正是基因表达和调控多样性的原因所在。
1.4.2 DNA的三级结构
DAN的双螺旋结构可进一步盘曲形成更加复杂的空间构象,称为DNA的三级结构。DNA的三级结构具有多种形式,其中以超螺旋最常见。根据双螺旋本身的方向性,超螺旋的旋转方向可有2种形式:负超螺旋与正超螺旋。前者旋转方向与双螺旋方向相反,这是最常见的一种形式;后者旋转方向与双螺旋方向相同,体内较少见(图1-5)。
1-5 环状DNA的超螺旋
真核生物内,DNA在细胞生活周期的大部分时间内是以染色质(chromatin)的形式存在的。在细胞分裂期,光镜下可见染色体(chromosome)。染色质与染色体都是DNA的高级结构形式,并且基本上是同一物质,只不过是不同时期(一个是间期,一个是分裂期)的不同形态而已,它们的基本结构单位都是核小体(nucleosome)。
核小体由DNA双螺旋缠绕在组蛋白上形成,其核心为四种组蛋白构成的八聚体。组蛋白共有五种,分别称为 H1,H2 A,H2 B,H3和H4。其中H2 A-H2 B形成2个二聚体,位于核心的一侧;另一侧的四聚体由两对H3和H4组成。DNA双螺旋分子在组蛋白八聚体表面绕了1.75圈,长度约140 ~160 bp,构成核小体的核心颗粒(core particle)。相邻的两个核心颗粒由长约60 bp的DNA连接,连接区结合有一个组蛋白分子H1。这样的结构不断重复,形成所谓的“串珠样”外观。许多核粒由DNA链连在一起构成念珠状结构。
核小体是染色质的基本结构单位。核小体的形成仅仅是DNA在细胞核内紧密压缩的第一步。核小体长链可进一步卷曲,H1组蛋白在内侧相互接触,形成直径为30 nm的螺旋筒(solenoid)结构,组成染色质纤维。在形成染色单体时,螺旋筒再进一步卷曲、折叠,形成纤维状及襻状结构,最后形成棒状的染色体。其结构使长度近1m的DNA双螺旋,被压缩8000多倍,成功地容纳在直径仅数微米的细胞核中。
对于真核生物而言,DNA除了存在于细胞核内,还有少量的DNA位于细胞的线粒体(mitochondrion)中,称为线粒体DNA(mi-tochondrial DNA,mtDNA)。mtDNA与细菌的DNA相似,也是超螺旋双链环状分子,裸露而不与组蛋白结合,分散在线粒体基质的不同区域。一个线粒体中可能有一种或几种DNA分子,与细胞核内的DNA相比,mtDNA的相对分子质量较小,约为10 × 106。mtDNA中储存的遗传信息主要用于指导线粒体自身的蛋白质及RNA的合成。
1.5 DNA的理化性质
1.5.1 DNA的生物大分子性质
DNA是生物大分子,具有大分子的一般特性。表示分子大小的方式很多:
1.相对分子质量
DNA的相对分子质量约在106 ~1010范围内。
2.碱基或碱基对数(bp)及链长((m)
它们的关系是,一个碱基对(bp)相当的核苷酸,其相对分子质量平均为660;1 μm长的DNA双螺旋相当于3000 bp或相对质量2 × 106。
3.沉降系数(S)
溶液中的DNA分子在引力场中可以下沉,这是核酸的沉降特性。另外,不同构象的DNA(线形、开环、闭环、超螺旋结构)在超速离心机的强大引力场中,沉降的速率存在很大的差异,所以可以用超速离心法测定核酸的沉降系数,以表示DNA分子的大小,超速离心法还可以用于纯化DNA,分离不同构象的DNA。
DNA是生物大分子,DNA的组成含有C、H、O、N、P等元素,其中P的含量较高,并且恒定,DNA平均含P量为9.9 %。所以可通过测定样品中的P含量来定量分析DNA含量。
1.5.2 DNA的两性性质与等电点
DNA分子中含有酸性的磷酸基团和碱性的含氮碱基,决定了DNA是两性化合物。因磷酸基酸性相对较强,所以DNA通常表现为酸性。DNA的等电点较低,当DNA分子内的酸性解离和碱性解离相等,本身所带的正电荷与负电荷相等时,DNA溶液的 pH值即为DNA的等电点为4~4.5。DNA在其等电点时溶解度最小。
由于碱基对之间的氢键性质与其解离状态有关。而解离状态又与pH有关,所以溶液的pH范围直接影响DNA双螺旋结构中碱基对间的稳定性。对于DNA的碱基对,在pH4.0~11.0之间最为稳定,超越此范围,DNA将变性。
1.5.3 DNA的溶解度与黏度
DNA是极性化合物,微溶于水,而不溶于乙醇、乙醚、氯仿等有机溶剂。DNA能溶于10 %左右的氯化钠溶液,但在50 %左右的酒精溶液中溶解度很小,提取DNA时常利用这些性质。
由于是高分子物质,其溶液黏度大;即使是极稀的DNA溶液,黏度也很大。当DNA被加热或在其他因素作用下,其螺旋结构转为无规则线团结构时,其黏度大为降低,这可作为DNA变性的指标。
1.5.4 DNA的紫外吸收
DNA组成中含有嘌呤和嘧啶环碱基,因为这些结构中带有共轭双键,所以DNA也具有了强烈的紫外吸收性质,一般在260 nm左右有最大吸收峰。利用这一性质,可鉴别DNA中的蛋白质杂质,也可对DNA进行定量测定。
1.5.5 DNA的变性、复性
1.DNA的变性(denaturation)与变性因素
DNA的变性是指DNA双螺旋区的氢键断裂,变成单链结构的过程。变性后的DNA将失去其部分或全部的生物活性。DNA的变性并不涉及磷酸二脂键的断裂,所以它的一级结构保持不变。能够引起变性的因素有很多,如温度升高、酸碱度改变、以及某些变性剂(如甲醛、尿素)等的存在均能引起DNA的变性。DNA变性的表现有:某些颜色反应增强,尤其在波长260 nm处的紫外吸收增强,称为增色效应(hyperchromic effect);黏度下降;密度升高;生物活性丧失等。
用加热的方法使 DNA变性叫做热变性,这是实验室最常用的DNA变性方法。DNA的热变性是突发性的,只在较窄的温度范围内发生。通常将紫外吸收值达最大值的50 %时的温度称为解链温度(melting temperature,Tm),也称为溶解温度。在Tm时,DNA分子中50%的双螺旋结构被破坏。一般DNA的Tm值在70 ~85℃之间,不同的DNA,Tm值也不同。Tm值的高低取决于DNA中所含的碱基组成,G-C碱基对愈多,Tm值愈高,反之,则愈低。这是因为G-C碱基对中含有3个氢键,而A-T碱基对中只含2个氢键,要破坏G-C碱基对的氢键,所需要的热能要更多一些。
2.DNA的复性(renaturation)
变性DNA在适当的条件下,两条彼此分开的单链可以重新缔合成为双螺旋结构,这一过程称为复性。热变性后形成的DNA片段在复性时,各片段之间只要有大致相同的碱基彼此互补,就可以重新形成双螺旋结构。DNA复性后,一系列的物理、化学性质将得到恢复。DNA复性的程度、速率与复性过程的条件有关。将热变性的DNA骤然冷却至低温时,DNA不可能复性。但是将变性的 DNA缓慢冷却时,可以复性,这一过程称为退火(annealing)。DNA的片段越大,复性越慢;DNA的浓度越大,复性则越快。此外,DNA的复性也与它本身的组成和结构有关。
1.5.6 DNA的催化活性
长期以来人们一直认为酶的本质是蛋白质,后来又发现DNA在某些场合下也具有催化活性。
脱氧核酶(deoxyribozyme)是具有特定催化功能的 DNA分子,又称为酶性DNA。根据它们的催化功能,脱氧核酶主要分为以下几类:①剪切RNA分子;②剪切DNA分子;③催化核酸分子的磷酸化;④连接DNA分子等。
1.6 基因的结构和基因组
1.6.1 基因的基本结构
大多数真核生物的基因是不连续基因,所谓的不连续基因就是指基因的编码序列在DNA分子上是不连续的,被非编码序列所隔开。编码的序列称为外显子,是基因表达为多肽链的部分;非编码序列称为内含子,又称间插序列(intervening sequence),内含子只转录,在前mRNA时被剪切掉。内含子的核苷酸数量可能比外显子多许多倍。每个外显子和内含子接头区都有一段高度保守的共有序列,即内含子5′端大多数是 GT开始,3′端大多是AG结束,称为GT -AG法则,这是普遍存在于真核基因中RNA剪接的识别信号。在第一个外显子和最末一个外显子的外侧各有一段非翻译区。一个基因的转录区之前和之后的区域称为侧翼序列(flanking sequence)。侧翼序列含有基因调控序列,对该基因的活性有重要影响。在结构基因中,启动子(promoter)包括下列几种不同序列,能促进转录过程。①TATA框(TATA box),其共有序列为TATA 。它约在基因转录起始点上游-30~ -50 bp处,基本上由AT碱基对组成,为RNA聚合酶的结合位点之一,RNA聚合酶与TATA框牢固结合之后才能开始转录。②CACT框(CAAT box),其共有序列为,是真核生物基因常有的调控区,位于转录起始点上游-80~ -100 bp处,可能也是RNA聚合酶的一个结合位点,控制着转录起始的效率。③GC框(GC box),有两个拷贝,位于 CAAT框的两侧,由 GGCGGG组成,是一个转录调节区,有激活转录的作用。在真核生物基因转录起始点的上游或下游,一般都有增强子(enhancer),它不能启动一个基因的转录,但可与特异性细胞因子结合而促进转录的进行。增强子通常有组织特异性,在不同的细胞核不同的特异因子与增强子结合,从而对不同组织、器官的基因表达起调节作用,也使得同一组织、器官的基因在不同时间的表达各异。在一个基因的末端往往有一段特定序列,它具有终止转录的作用,这段终止信号的序列称为终止子(ter-minator)。终止子的共同序列特征是转录终止点之前有一段回文序列,约7~20个核苷酸对。回文序列的两个重复部分分别是由几个不重复碱基对的不重复节段隔开,回文序列的对称轴一般距转录终止点16~24 bp。在回文序列的下游有6 ~8个AT对,因此,这段终止子转录后形成的RNA具有发夹结构,并具有与A互补的一串U,因为AU之间氢键结合较弱,因而RNA/DNA杂交部分易于分离,这样对转录物从DNA模板上释放出来是有利的,也可使RNA聚合酶从DNA上解离下来,实现转录的终止。
1.6.2 几个常用的概念
1.断裂基因(splitting gene)
在DNA分子的结构基因内既含有能转译的区段,也含有不转译的区段,这类基因称断裂基因。
2.重复基因
含有多个拷贝的基因称为重复基因。
1)高度重复序列
高度重复序列 是指重复频率可达106以上的DNA序列,在人类基因组中约占20 %,主要包括卫星DNA,反向重复序列和由较复杂的重复单位组成的重复序列。
卫星DNA(satellite DNA)真核生物基因组DNA除形成一条与原核生物基因组DNA一致的主要宽带外,还有一些其他的条带,这些条带中所含的DNA称为卫星DNA。根据浮力、密度的不同,可将卫星DNA分为Ⅰ、Ⅱ、Ⅲ、Ⅳ、α和β卫星DNA。卫星DNA的密度不同于主带DNA的密度的原因是由于其组成中GC的含量与主带的不同,GC的含量越高,其密度越大。卫星DNA是一类高度重复的序列,约占人基因组DNA的10 %,通常由2~10 bp组成,卫星DNA位于异染色质内,通常不转录。
反向重复序列 是指在双链DNA中两条链的序列如旋转180°后,两条链的序列是一样的,而且在单链中可以形成发夹状或茎环状结构。反向重复序列,又称回文结构,约占人基因组的5%。
2)中度重复序列
拷贝数为10~105的DNA序列称为中度重复序列,大多数与基因组中的单拷贝序列间隔排列,序列散布而不是集中在基因组中,重复序列的长度和重复程度相差很大。
3.重叠基因(overlapping gene)
同一DNA区段,有两个或两个以上的基因共用时,称此基因为重叠基因。
4.转座子(transposon)
是染色体(或质粒)上一段DNA序列,它作为一个可以分离但不交换的单元,能从一个位点转移到另一个位点。转位基因的共同特点是两端具有重复序列(反向或同向),中间具有转位酶基因等序列。转座子是能够反复插入到基因组中许多位点的特殊DNA片段,在细菌中较为常见。
5.基因家族(gene family)
是指一组结构和功能相似,序列上具有较大同源性的基因。其编码相似功能的蛋白质和编码不同蛋白质中的同源结构域。同一基因家族的基因往往是由同一原始基因进化而来的。如 mRNA基因家族、组蛋白基因家族。
6.超基因家族(supergene family)
是指一组由多个基因家族和单基因组成的更大的基因家族。一个超基因家族内含有数百个功能相关的基因,它们的结构具有不同程度的同源性,可能起源于同一原始基因,但功能可以相同或相似,也可以不同,这点也正是超基因家族与多基因家族的区别所在。典型的超基因家族有免疫球蛋白超基因家族、细胞因子超基因家族等。
7.假基因(ps d eneu og e)
在多基因家族中,些有序列具有类似于基因的功能,但不能表达出有功能的产物,这些基因称为假基因。假基因与某些功能基因同源,其原来也可能是功能基因。
1.6.3 基因组
基因组(genome)是一个细胞或一种生物的一整套单倍体遗传物质的总和,如人类的基因组包括22条常染色体和X、Y两条性染色体DNA上的全部遗传信息以及线粒体DNA的遗传信息,它们分别称为人类的核基因组和线粒体基因组。基因组是温克勒(H.Winkler)于1920年提出的,是“gene”和“chromosome”两个词缩合而成的。基因组中的染色体以核小体为基本单位,形成了染色体的四级结构模型,包含有六级结构水平。其中,由DNA双链包装成的核小体是染色质包装的一级结构;核小体紧密接触形成外径为30 nm,内径为10 nm的螺旋管是染色体包装的二级结构;30 nm纤维进一步压缩成超螺旋管是染色体包装的三级结构;该超螺旋再经折叠形成染色体单体即为染色体的四级结构。
基因组研究可以理解为:基因表达概况研究,即比较不同组织和不同发育阶段、正常状态与疾病状态、体外培养细胞基因表达模式的差异、蛋白质功能研究、蛋白质与蛋白质相互作用的研究。
不同物种间基因组大小和复杂程度差异很大,一般来讲,进化程度越高的生物体其基因组构成越大、越复杂。DNA分子中不同排列顺序的DNA片段构成特定的功能单位,即基因。基因的功能取决于DNA的一级结构。一个 DNA分子能携带多少基因呢?如果以平均1000~1500 bp编码一个基因计算,猿猴病毒SV40基因组DNA约有5000碱基对,可编码5种基因。人类基因组约含3 × 109 bpDNA,理论上可编码200万以上的基因,然而,2001年2月完成的人类基因组草图已揭示人基因总数仅在30 000~35 000个之间。
1.原核生物基因组
原核生物基因组包括病毒基因组和细菌基因组。其结构有以下共同特征:
1)基因组较小,没有核膜包裹,且形式多样,如病毒基因组可能是DNA,也可能是RNA,可能是单链的,也可能是双链的,可能是闭环分子,也可能是线性分子;细菌染色体基因组则常为环状双链DNA分子,并与其中央的RNA分子和支架蛋白构成一致密的区域,成为类核(nucleoid)。
2)功能上相关的结构基因常常串联排列在一起,受其上游的共同控制区(启动子和操纵基因)的共同控制,转录在同一个mRNA分子中,称为多顺反子mRNA(polycistronic mRNA),然后再加工成各种蛋白质的模板mRNA。
3)DNA分子绝大部分用于编码蛋白质,只有小部分是不编码蛋白质的,又称间隔区,通常包含控制基因表达的序列。
4)基因重叠是病毒基因的结构特点,即同一段DNA片段能够编码两种甚至三种蛋白质分子。
5)除真核细胞病毒外,基因是连续的,即不含内含子序列。
2.真核生物基因组
真核生物基因组与原核生物基因组在结构方面存在巨大的差别,其结构特征如下:
1)真核生物基因组DNA与蛋白质结合形成染色体,储存于细胞核内,除了配子细胞外,体细胞内的基因组是双份的(即二倍体)。2)真核细胞基因转录产物为单顺反子(monocistron),即一个结构基因转录成一个mRNA分子,翻译一条多肽链。
3)真核生物基因组中存在大量重复序列,即在整个DNA中有许多重复出现的核苷酸序列,重复序列长度不一,短的仅含两个核苷酸,长的多达数百乃至上千个核苷酸。高度重复序列重复频率可达106次,包括卫星DNA、反向重复序列和较复杂的重复单位组成的重复序列;中度重复序列可达103 ~104次,如为数众多的Alu序列、组蛋白基因等;单拷贝或低度重复序列,指在整个基因组中出现一次或很少的核苷酸序列,主要是编码蛋白质的结构基因。
4)真核生物基因组中不编码的区域多于编码区域。·19·
5)真核生物基因组中基因是不连续的,内含子和外显子相间排列,转录时一起转录,然后RNA中的内含子被切掉,外显子连接在一起成为成熟的mRNA,作为知道蛋白质合成的模板。
6)真核生物基因组远大于原核生物基因组,具有许多复制起点,而且每个复制子的长度较小。
1.7 基因的生物学作用及与体育运动的关系
1.7.1 基因的生物学功能及其在体育运动中的作用
1 DN. A是遗传信息的携带者
除了少数RNA病毒之外,DNA几乎是所有生物遗传信息的携带者。DNA分子携带着两类不同的遗传信息,一类是负责蛋白质氨基酸组成的信息,这类遗传信息是以三联体密码子的方式进行编码的。另一类遗传信息是关于基因选择性表达的信息。这种选择性表达体现在细胞周期中的不同时相中、个体发育的不同阶段中、不同器官和组织中。在不同的外界环境下,各种基因是表达还是关闭,表达量是多少,都是各不相同的。各种形式的体育运动对肌体都是一个刺激,当运动员长期从事体育运动,持续受到某一刺激时,会在不同水平上产生适应性变化。肉眼能够看得见的变化有许多,如各项素质的提高:肌体力量的增加、速度的提高、耐力的增强等等;还有器官水平的适应:肌肉增粗、心脏的运动性肥大等等。归根结底是肌体受到运动的刺激后,在基因水平上的适应。运动使得骨骼肌和心肌合成的基因表达增强,合成大量的蛋白质去修复损伤的骨骼肌和心肌细胞,并通过肥大进一步增强骨骼肌和心肌的力量,以适应高强度的运动对力量和血液供应的需求。调节能量供应所需要的各种酶类的基因表达活跃,使得这些酶类的合成增多,在单位时间内产生能量的能力提高,运动员的爆发力和持久力都相应提高。
2.DNA的自我复制功能
DNA通过自我复制能将其储存的遗传信息稳定、忠实地从亲代细胞遗传至子代细胞,这是DNA的第二个功能。其中DNA双螺旋结构和碱基配对法则是DNA复制、遗传信息从亲代传至子代细胞的基础,众多的酶、蛋白质因子参与复制是DNA复制能够忠实、稳定进行的保证。由于运动能力是由控制人体运动方面各性状的基因决定的,而基因的遗传性决定其在人的一生中保持一定的稳定性和一定的极限性。所以在运动员科学选材中,可依据遗传的稳定性,预测待选运动员将来可能达到的运动水平,为科学选材提供有力的证据和依据。
3.DNA的自体催化功能
遗传信息的表达是通过将DNA所储存的遗传信息进行转录和翻译,合成蛋白质来实现的。DNA分子中脱氧核苷酸的排列顺序决定着细胞内RNA的核苷酸序列和蛋白质的氨基酸序列,从而体现生物体的生命活动和生命现象。
4.DNA的变异突变功能
生物体的遗传性和变异性同时存在,以适应环境条件的变化,维持生物进化和产生生物多样性。生物的遗传性是基因稳定性的表现,变异性是基因突变的表现,遗传和变异都是普遍存在的自然现象。在一定范围内的突变是产生新的遗传性状和新的生物物种所必需的。
1.7.2 与运动能力直接相关的基因
生物的性状都是由基因所控制的,人类的杰出运动能力也不例外,直接受控于某些基因。很早,人们就发现人类存在着对运动训练敏感的高反应群体(highresponder,HR)和对训练不敏感的低反应群体(lowresponder,LR)。随着人们对于基因研究和认识的深入,国内外学者对与杰出运动能力相关的基因标记或定位也进行了相当规模的尝试,取得了一些令人鼓舞的研究成果。
1.与杰出耐力有关的基因
杰出的耐力是多因子的复杂表型,目前的研究只是对与其影响因素有关的基因进行了关联或连锁分析,还没有能够对其进行深入的系统研究。
1)血管紧张素转化酶(ACE)基因插入缺失(ID)多态
血管紧张素转化酶(ACE)是肾素血管紧张素醛固酮系统(RAAS)的重要成分,ACE(EC31411511)是一种含锌的金属蛋白酶,由20肽的酸性糖蛋白单链组成,分子量90~160 kD,为二肽羧肽酶。ACE可催化无活性的血管紧张素转变为具有强烈血管加压作用的血管紧张素,也可使缓激肽等血管活性物质失活。在人类同一个体,血浆ACE活性相当稳定,儿童、青春期前明显高于成人,成年后无年龄差异,女性略低于男性。ACE活性与环境和内分泌因素之间仅呈微弱相关。不同个体之间ACE活性差异较大,可达2 ~5倍,这种差异在程度上受主要基因效应影响。血液中ACE水平与ACE基因多态性有密切关系。
Hubert等研究发现,人类ACE基因属于单拷贝基因,定位于17号染色体长臂2区3带(17 q23),由26个外显子(94 ~481 bp)和25个内含子(150~2000 bp)组成,其长度为21 kb。在16内含子由于存在或丢失一个287 bp的DNA片段而有插入(Insertion,I)、缺失(deletion,D),呈现ACE基因插入/缺失多态性。赖玉琼等用PCR技术检测 ACE基因 I/D多态性,发现 ACE有三种基因型:仅有190 bp带的纯合子缺失型(DD),仅有 490 bp带的纯合子插入型(II),具有190 bp和490 bp两种带的杂合子型(ID)。这种多态性能显著地影响血浆和细胞的ACE水平,ACE基因多态性在不同种族分布有明显差异。
ACE基因多态性与心脏功能正常和异常关系的研究报道非常多,但英国科研人员Montgomery为首的研究小组最先报道了该基因与运动员耐力素质的关系:与对照组(1906名健康男子)相比,33名全英优秀登山运动员的ACE基因不论是基因型频率还是等位基因频率均存在显著差异(P<0.02和P<0.003)。登山运动员多为II纯合子,而DD纯合子比较少见。曾登上8000 m高度的运动员无一例为DD纯合子,而且前5名最优秀的运动员均为II纯合子。以英国奥运会所有参赛运动员为受试对象的分析表明,随着运动距离(小于200 m、400~3000 m、大于5000 m)的增加,79名不同距离的田径项目运动员I等位基因的频率也增加(P=0.009),而其他401名非耐力项目运动员其ID分布与普通对照组没有差别。
关联分析是检验在一个种群中带有性状的无关个体组与不带有性状的无关个体组在某一遗传标记位点处是否会出现不同的频率。关联存在表明所选基因可能是控制性状的基因,或在控制性状的位点,或与控制性状的基因连锁不平衡。表型微小的差异可能造成关联结果的差异。目前对ACE基因多态性与运动员耐力素质的关联度的结果报道不一:西班牙一研究小组报道I等位基因在职业运动员组(自行车赛手、长跑运动员、手球运动员)的分布频率高于对照组(P =0.0009);赵云等的研究也表明优秀耐力长跑运动员I等位基因的频率显著高于对照组;孙小敏等研究耐力、力量运动员和普通对照组各20名,发现耐力运动员的II基因型和I等位基因的频率显著高于对照组和力量运动员组。但是另一研究小组却没有发现I等位基因与优秀耐力成绩关联,该研究小组所有研究的共同特点是所选的120名运动员来自混合的运动项目:曲棍球(26)、自行车(25)、滑雪(21)、田径(15)、游泳(13)、划艇(7)、体操(5)、其他项目运动员(8);与其相似,Karjalainen等的80名芬兰国家队运动员包括了长跑、越野滑雪、铁人三项等项目;Rankinen等的受试者是迄今为止研究ACE多态性受试例数最多的,但同样是混合项目。优秀耐力素质是耐力项目运动员必备的基本素质,但田径场上的长跑运动员和公路赛的长跑运动员表现出的优秀耐力的表型可能就有差异。而且优秀运动员的运动能力都是经过长期训练而表现出来的,其中也有基因和环境相互作用的结果。因此,在没有确切的优秀耐力标准之前,对单个运动项目的关联分析可能更可靠。
最大摄氧量(VO2 max)是指人体在进行力竭运动中,当氧运输系统各个环节的储备力都已被动员而达到最高水平时,人体每单位时间内所能摄取的最大氧量。是反应和评定最大有氧能力的客观指标,也是具有杰出耐力的重要限制因素。VO2 max与ACE基因ID多态关系研究已有报道,但研究结果有很大争议。家系研究发现20周耐力训练后,在高加索人种的子代DD纯合子VO2 max增加显著,父代没有这种现象。Rankinen等设计比较完善的纵向研究结果不支持在普通海拔携带I等位基因群体的耐力天赋是由心肺功能的改善引起的。VO2 max可能决定在耐力运动中能量产生的上限,而不决定最后的成绩。有研究表明优秀登山运动员静态的和动态的肺容积及超声心动的数据与普通对照组相似,既而推测携带I等位基因的优秀登山运动员的天赋也不是心肺功能的改善引起的。肌肉横截面积的降低和毛细血管比率的增加,以及低VO2 max与高动静脉氧差,可能解释对高海拔的适应机制。经过11周训练的群体,在训练前DE(the ratio of the change in work performedmin-1 to the change in energy expended/min)独立于基因型,训练后仅仅II基因型DE增加显著,DE是评价肌肉效能最好的指标。另一研究曾报道II基因型群体比ID和DD脂肪重(0.55比-0.20 kg)和去脂肪重(1.31比-0.15 kg)对运动训练有高的代谢反应,II基因型表现出相对节约的能量储存。通过核磁共振发现大腿中部的总重和去脂肪重II基因型高于其他基因型。因此推测I等位基因通过肌肉效能而不是通过心肺功能影响运动能力。ACE基因ID多态性的生理基础的研究还没有一致性的推断。需要进一步分析ACE基因ID多态性与肌肉中ACE的水平、肌纤维类型、体积、线粒体密度、毛细血管密度、底物利用的关系,以便得出更明确的证据。
2)肌肉组织特异性磷酸肌酸激酶(skeletal muscle-specific creatinekinase,CKMM)基因
CKMM的生化功能是在肌球蛋白头部处催化CP分解,将其所含的高能磷酸键转移给ADP生成高浓度ATP,补充细胞做高强度运动时ATP储量的不足。同时CK作为能量转运单位从线粒体内将糖、脂肪、蛋白质分解所产生的能量转运到线粒体外形成ATP。CK在能量代谢系统的起着重要作用。CKMM基因位于19 q13.2~q13.3的区域,其长度约有17.5 kb,包含8个外显子和7个内含子。不同肌纤维类型中的CKMM活性亦有差异,I型肌纤维中CKMM活性较II型纤维至少低两倍。低CKMM活性是耐力运动员工作肌群的一个典型特征。有证据表明:遗传因素对肌纤维类型分布以及肌肉组织某些酶活性的变异有控制作用。动物实验中小鼠的CKMM基因被敲掉后,可观察到动物在低强度的运动中,耐力有明显的提高,抗疲劳能力增强,而且肌肉组织合成ATP的能力也明显增强。人体实验中,研究人员发现,由于CKMM基因编码区域的突变而形成的变异子与90 min耐力测试成绩有微弱关联。另外,变异子对耐力训练似乎较非变异子更为敏感。人类白细胞抗原(human leukocyte antigen,HLA)在免疫应答中最主要的功能是识别、处理和递呈抗原,而HLA等位基因多态性决定了其分子抗原结合凹槽的构象及结合、递呈抗原给T细胞的效率。HLA复合体位于人类6 p21.31上,占人类整个基因组的1/3 000,全长3 600 kb,包括224个基因座位,其中128个为功能性基因,有表达产物,96个为假基因。在128个功能性基因中,39.8 %的基因与免疫系统有关,特别是n类区域中几乎所有基因均显示出免疫相关功能。这些基因按其产物的功能被分为三类,即经典HLA基因、免疫相关基因以及免疫无关性基因。HLA基因是迄今发现最复杂的人类基因复合体,很多基因座位存在大量复等位基因,具有高度的多态性。Rodas等以对HLA复合体的多态为遗传标记在业余-专业运动员双生子群体中与VO2 max进行关联分析发现,HLA基因A2A11群体VO2 max平均值达到 71 ± 4ml/min/kg,没有携带 A2A11的群体VO2 max平均值58 ± 5ml/min/kg,两个群体有显著差异(P<0.001),由于所选的受试者为业余-专业运动员,携带A2 A11的群体也可能是对运动训练高反应的群体。目前,对此基因的研究多在与一些疾病的关联度上,而与运动能力的关系还没有进一步的报道。
3)人类白细胞抗原(HLA)基因
4)肾上腺素能受体(ADRA2A 、ADRB2)基因
近年研究发现,肾 素能受体基因上腺ADRA2 A和ADRB2与运动能力有关,ADRA2 A和ADRB2基因分别位于10 q24~26和染色体区域。5 q31~32 Wolfarth等对肾上腺素能受体基因Dral位点的多态分析发现,Dral RFLPs在优秀耐力运动员组和常人中存在显著差异(P=0.037),其中,6.7 kb的等位基因在优秀耐力运动员中的分布显著高于常人。值得一提的是,此项研究中受试者是以 VO2 max >74ml/mim/kg作为优秀耐力运动员的标准的。研究还发现,8对同卵双生子经过20周的耐力训练后,脂肪水解活性显著增高,其变化呈现同卵双生子内的高度一致性,而双生子间则呈异质性,表明训练引起的脂肪水解的变化主要由相关基因型决定,且ADRA2 A和ADRB2结合位点的分布呈部位特异性,儿茶酚胺激活的脂肪水解的差异与肾上腺素能α2受体的亲和性及数目有关。研究发现,马拉松运动员对脂肪的利用率显著高于常人和其它运动项目,脂肪水解供能又是耐力运动的重要能量代谢途径,而肾上腺素能受体基因通过调控ADRA2 A和ADRB2与儿茶酚胺的结合位点而发挥作用,也有望成为杰出耐力的遗传标记。
5)Na+ -K+ -ATPase 2基因
Na+ -K+ -ATPase是恢复Na+ -K+电位梯度的关键酶,而细胞内外正常的Na+ -K+离子浓度是肌肉细胞形成动作电位,维持兴奋性的物质基础,也是许多酶发挥生理作用的必备条件。Rankinen等在家系研究中对Na+ -K+ -ATPase 2基因多态进行了同胞对连锁分析表明,A2单体型与运动最大输出功率变化率(maximal power output, Wmax)的改进值连锁(P=0.003),结果提示Na+ -K+ -ATPase 2基因的多态与运动训练敏感性关联。查阅相关文献,没有其与优秀耐力研究的报道。但来自动物和人体的研究支持Na+ -K+ -ATPase 2在肌肉收缩、疲劳形成及运动能力中的作用。在动物实验中,抑制Na+ -K+ -ATPase 2活性引起骨骼肌运动能力降低。在人体实验中经过训练的群体股外侧肌的Na+ -K+ -ATPase 2活性显著高于对照组,并且这种增加是独立于肌肉氧化潜能变化的。因此,推测Na+ -K+ -ATPase 2是预测运动能力的一个很好的候选基因。
6)线粒体(mtDNA)基因
研究证实 骼肌,骨 ATP的再生能力是维持高水平运动能力的一个重要的限制因素,而线粒体是氧化磷酸化生成 ATP的重要场所,线粒体作为核外惟一具有遗传效用物质(mtDNA)的细胞器,具有自我复制功能,并控制相当的遗传性状。目前研究表明,mtDNA是基因组中惟一不遵循孟德尔遗传规则的基因序列,mtDNA由16 569 bp构成的双链环状结构,可编码下列结构:①NADP脱氢酶的7个亚基(MTND1,MTND2,MTND3,MTND4,MTND4 L,MTND5, MTND6);②ATPase合成酶的亚基6和亚基8;③细胞色素bc1复合物的亚基;④细胞色素c氧化酶复合物的亚基Ⅰ,Ⅱ,Ⅲ,包括呼吸链和氧化磷酸化过程67个酶中的13个;⑤2个rRNAs和22个tR-NAs。此外,mtDNA还包括其中惟一的非编码区D-Loop。包括了重链及轻链的启动子区,重链的复制源区,调控 D-LoopmRNA表达的保守序列。目前研究认为,mtDNA中除D-Loop和8 275 bp处的87 bp被认为是非编码核苷酸,其它区域都有编码功能。其mRNA可从单一位点转录,即所有tRNA、rRNA、mRNA均由同一顺反子转录而来,并且有部分基因的重叠。因此,mtDNA任一位点发生变异都有可能影响线粒体蛋白质的表达和功能,或影响n DNA和mtDNA的相互作用,继而影响线粒体的合成和功能。
早期研究表明VO2 max(ml/min/kg)母子显著相关(r=0.28),家系研究表明VO2 max的遗传因素中30%是由mtDNA遗传决定的。陈青等报道mtDNA D-loop(MspI,KpnI,HinfI,HaeIII)RFLPs在优秀耐力运动员和对照组的分布频率有显著性差异,MorphVII,VIII, IX为优秀耐力运动员特有。此外,研究还发现,有氧耐力训练反应敏感的少年运动员中表现出较高的 mt DNA/D -Loop基因多态变异型。但Riveera等的研究未能证实上述结果,没有发现BamHⅠ,NciⅠ,KpnⅠ RFLPs在优秀耐力运动员与常人在分布频率的差异。比较关联结果差异的原因可能与研究所选择的优秀耐力的标准和受试者来源不同(种族)有关。另有一项有意义的研究为mt DNA基因多态研究注入了活力,该研究用22种内切酶对mtDNA基因组3 %的区域进行了切割扫描,结果发现:普通健康个体携带下列3种多态之一者具有较高的VO2 max(ml/min/kg):①Bam HI -MTND5(13 364 bp);②Nci I-MTND5(13 470 bp);③Msp I-threonine tRNA(MTTT,15 925 bp)。携带Sca I-MT-ND5(12 406 bp)的群体VO2 max(ml/min/kg)低于整个群体的平均值。对受试者进行20周的有氧训练, VO2 max(ml/min/kg)显著性增加,变化值范围2 ~20 ml/min/kg,携带HincII-MTND5 VO2 max(ml/min/kg)的变化值(0.28L/min)低于其他群体(P<0.05)。目前研究证实mtDNA是惟一经过母亲遗传的遗传物质,因此进一步的研究其与运动能力的关系对运动员选材的准确性将有极大的帮助。
常芸(2004)对95名汉族耐力运动员和92名对照汉族人群mtDNA高变区特异性片段进行了多态性分析。结果显示,中国汉族耐力运动员的多态位点有83个。其中,碱基替换位点68,缺失位点5个,插入位点10个,位点16 228碱基缺失及16 113~16 114和16 335~16 336碱基插入为运动员独有;中国汉族运动员mtDNA高变区同质性多态主要表现为碱基转换、碱基颠换、缺失及插入四种类型。其中,碱基转换发生率最高,碱基颠换发生率次之,碱基缺失及插入频率最低。运动员碱基颠换频率明显高于常人,而碱基缺失及插入频率则显著低于常人。运动员T-C转换频率显著高于常人,运动员A-G转换频率则显著低于常人。其 mtDNA高变区 I SNPs位点 C16 167 A、C16 085 G及T16 124 A可能成为人类运动能力相关的基因标记。
7)PPAR家族基因
1990年Issemann发现一种固醇类受体,它需要被脂肪酸类过氧化物酶增殖剂(peroxisome proliferator)激活才能发挥作用,因此命名为过氧化物酶体增殖物激活受体(peroxisomeproliferator-activated-receptor,PPARs)。PPARs属于核受体超基因家族成员,可调控多种核内基因的表达。由于其对耐力的调控作用而受到广泛关注。
PPARs有 3个亚基:PPARα、PPARβ(又称:PPARδ)和PPARγ。其功能是共同调节糖脂代谢平衡,影响脑组织、骨组织、皮肤组织的生长与分化。PPARγ是这3个亚基中研究最热的,主要在脂肪存贮中起重要作用。它可通过调控心肌、肝、骨骼肌等组织线粒体脂肪酸氧化、提高细胞对胰岛素的敏感性来控制脂代谢的平衡。此外,活化的PPARγ还能促进葡萄糖载体GLUT21和GLUT24的表达。PPARα的功能与 PPARγ相反,主要在脂肪的分解代谢上起作用。PPARδ虽在组织分布广泛,尤其在骨骼肌中高度表达,但它的分子机制尚不清楚。最近新发现,PPAR-DELTA是一种可以管理和调节不同基因活动的基因,相当于基因中的管家,能加快人体新陈代谢,加速脂肪燃烧,所以又称为“脂肪控制开关”基因。
Luquet(2003)等建立了PPARδ骨骼肌转基因小鼠模型,发现骨骼肌中PPARδ过量表达可导致肌纤维类型向更多的氧化型肌纤维的转化,肌肉的氧化代谢能力得到提高。此外,该学者还让野生型小鼠进行耐力训练,发现运动增加了肌肉中PPARδ的蛋白含量,所产生的适应性反应与PPARδ骨骼肌表达的转基因小鼠模型的结果类似,说明在肌肉对运动的适应性反应中,PPARδ起到了重要的调控作用。以后,Wang(2004)报道服用激动剂的小鼠和转基因小鼠的肌纤维类型发生了改变,抗高脂饮食能力增加,耐力明显提高,并以I型肌纤维比例的增加为特点。此研究使得PPARδ作为作用靶点,在骨骼肌耐力提高的生物学调控作用方面给人以启发。美国和韩国的研究人员通过基因技术将PPARδ基因植入大鼠体内,将普通实验鼠改造成了耐力大增的“马拉松鼠”,其运动持续时间是普通实验鼠的3倍。
研究表明,PPARα基因的多态性可能与个体的耐力有关,有希望成为耐力运动员选材的基因标记。Yalda(2001)研究了144名英国新兵训练前后左心室增生与 PPARα基因多态性的关系,证实PPARα调节了运动训练导致左心室肥大的作用。此外,有研究证明PPARα基因第 7内含子 G/C多态、PPARδ基因第 4外显子(69 803 bp处)C/T多态与个体的脂代谢特点有关,这可能是涉及个体在耐力运动中的能量供应能力特点,是一个很好的侯选基因。
8)肌红蛋白基因
肌红蛋白的功能是把血液中的氧通过细胞膜运输到肌细胞中,以氧合肌红蛋白的形式暂时储存,保证肌肉剧烈活动时对氧的需要。因此,肌红蛋白对有氧耐力有着十分重要的作用。
人类肌红蛋白基因位于22 q11,12 -q13的染色体区域,长约1 015 kb,包括3个外显子和2个内含子。肌红蛋白基因第2外显子编码该基因的主要功能部分,故其基因表达直接影响蛋白质的功能。在肌红蛋白基因第2外显子上存在单核苷酸多态(SNP)A79 G。等人的研究发现,3代以上出生并居住于海拔3000米以上喜马拉雅山地区的西藏藏族人群,其79 A等位基因频率高于平原地区人群。西藏藏族人群长期居住于高原地区,与其他种族相比,对高原低氧环境有更显著的适应性,尤其在氧从肺运输到组织和组织对氧的利用等方面,其能力明显高于其他种族人群。为了分析探讨肌红蛋白基因多态性与个体有氧能力的关联性,吴剑等通过对中国北方新征入伍的104名汉族士兵递增负荷运动实验,受试对象训练前后最大摄氧量(VO2 max)和通气无氧阈(VT)的比较发现:3种基因型的分布频率分别为 AA(0.52)、AG(0.45)、GG(0.03),分布频率符合Hardy-weinberg遗传平衡定律;训练后3种基因型VO2 max的组间比较均无显著性差异(P>0.05);训练后GG组和AG组VT显著提高(P<0.05),AA组达到VT时仅HR显著升高,其余指标均无显著变化(P>0.05);在VO2 max和VT的变化率(Δ%)方面,GG组受Moore试者提高最多,AG组居中,AA组提高最少。表明肌红蛋白基因第2外显子的单核苷酸多态(A79 G)与有氧耐力训练效果有一定关联, 79 G等位基因携带者对有氧耐力训练可能更敏感。
9)与低氧适应相关的功能基因组
人类经过长期的适应可以增强细胞在低氧环境下的工作能力。近年来,很多文献报道低氧可以诱导机体某些特定基因的表达来调节诸如红细胞生成、肺通气、血管生成及能量代谢等生理功能。而这一过程与体内一种被称为“氧敏感细胞”(如颈动脉体I型细胞)的调节活动有关。氧敏感细胞具有超常的耐受低氧的能力。缺氧时,氧敏感细胞可以改变与其相关的数以百计的基因和蛋白的表达,以提高机体向缺氧组织运输氧气的能力。
为了研究低氧诱导机体的基因表达情况,学者们克隆了在形式上与氧敏感细胞相似的参与低氧反应的PC12细胞系,使用该细胞系模型,Karen实验室确定了许多缺氧调节基因,如缺氧上调腺苷A2 A受体,下调N-甲基-D-天冬氨酸受体,PKA和Ca2+钙调素依赖蛋白激酶II等等。该实验室又进一步发明了一种独特的实验方法,即利用cDNA文库与微阵列分析法来确定低氧反应信号转换通路和相关基因,用以筛选与缺氧耐受能力相关的基因型。文库中筛选出参与低氧调节的基因包括酪氨酸羟化酶(TH)、血管内皮生长因子(VEGF)、junB原癌基因(junB),这些基因在文库中的频率与其低氧应答高度一致。同时SSH文库还涵盖了参与葡萄糖代谢、细胞凋亡和神经传导等方面的相关基因。很多糖酵解途径上的酶,如丙酮酸激酶(PYK)、磷酸甘油酸激酶(PGK)和己糖激酶II(HK-II)上均含有HIF-1结合位点,且低氧可以调节其酶活性。
2.与肌肉力量有关的基因
目前对肌肉力量基因的基础研究很少,Thomis等以双生子为研究对象,对其进行了10周的肘屈肌的阻抗训练。发现:最大等长肌肉力量和肌肉横截面积84 % ~90 %是由遗传因素决定的。1 RM和等长力量对训练敏感性的双生子对内相关系数分别为0.46和0.30。20 %的1 RM、等长力量、120 °的离心峰力矩的训练后的改进值是由基因-环境相互作用决定的,并且这些基因30 % ~77 %有异于决定训练前表型的基因。此外,Thomis等指出肌肉力量的遗传度取决于测定时选取的角度、收缩方式、收缩速度。如,肘屈肌的离心力的遗传度(62 % ~82 %)大于向心力的遗传度(29 % ~65 %)。从而既证实了遗传因素在肌肉力量中的重要作用,也证实了多效性基因的存在。
1)Geusens(1997)测量了501名70岁以上妇女的肌肉力量,并对VDR基因(2 q12 ~q14)多态与肌力的关系进行了研究。所研究的多态位点为BsmI切点,b型有BsmI切点,B型为不存在切点。结果显示,在体重指数(BMI)<30 kg/m2的人群中,bb型个体握力要比BB型高7 %,bb型股四头肌力量比BB型高23 %。而在体重超重的个体中这种差别就不十分显著,值得进一步研究。
2)生长分化因子8(GDF8)基因
GDF8是转化生长因子家族中的一员,在调节胚胎发育和维持组织内环境稳定方面起重要作用。GDF8定位于2 q3212,在控制和维持骨骼肌质量方面起作用。Ferrell等在1999年提出 myostatin(growth and differentiation factor 8,GDF8)基因(a55 T,K153 R,E164 K, P198 A,I225 T)可能是研究肌肉相关表型的遗传标记,该研究小组此后的研究没有发现myostatin的多态与股四头肌的体积和对力量训练的敏感性关联。有实验表明GDF8的表达量与瘦体重成反比,与AIDS患者的体重消耗有关。Seibert(2001)对GDF8的K153 R多态与肌肉力量的维持进行了研究。实验选取了70到79岁之间的286名妇女进行调查,包括81.1 %高加索人、18.8 %非裔美国人、0.2 %亚洲人和西班牙人,用测力计测定她们臀部、膝关节和握力的最大力量。结果显示,在非裔美国人中携带K基因者比携带R基因者有更大的肌肉力量,K/K:72.50 ± 13.9 kg(n = 39),K/R:67.14 ± 11.4 kg(n=13),R/R:63.1 ± 11.3 kg(n=3)。但综合考虑BMI等因素后,差异变得不是十分显著。另有研究显示这种影响似乎与性别有关,作者认为应该在更大的群体中作进一步研究。
3)ACTN3基因型
A-辅肌动蛋白(alphaactinin,ACTN)是肌动蛋白的结合蛋白,其生物学功能与所在的细胞有关。在非骨骼肌细胞中,ACTN是微丝的结合蛋白质之一,可以将肌动蛋白纤维交联成平行排列的束状结构;而在骨骼肌纤维中,ACTN类似致密体存在于Z线,帮助定位肌原纤维的肌动蛋白微丝。
ACTN有3种存在形式——ACTN1、ACTN2、ACTN3。人类只有ACTN2和ACTN3。ACTN2存在于骨骼肌和心肌中;ACTN3仅存在于骨骼肌的快肌纤维中。研究证实,人类ACTN3基因的第16号外显子的第1 747核苷酸有一C到T位点突变,产生了终止密码子,取代了577氨基酸残基的精氨酸(R577 X)。世界上有16 %的人存在此多态。在对澳大利亚优秀运动员的研究中发现,ACTN3基因R577 X基因型与运动能力相关:速度性表现与577 R等位基因相关,耐力性表现与577 X等位基因相关。ACTN3基因R577 X多态性是否与力量训练的敏感性相关?针对这一问题,Clarkson等人让247名男性和355名女性进行了为期12周非优势手臂的肘关节屈伸抗阻训练。在抗阻训练前后测定肘关节屈肌力量大小和肱二头肌生理横断面面积。研究发现,男性的ACTN3基因R577 X多态性与肌肉力量、大小不相关。女性在按体重和年龄分组后,ACTN3基因R577 X为纯合型XX的人群在训练前的最大等长力量显著低于杂合型RX(P<0.05)。但在力量训练后,纯合型为XX的女性表现出比RR型人群有更大的绝对和相对力量的增长(P<0.05)。基因效应的变异分析显示,大约2 %的训练前的最大等长力量以及训练后的最大力量增长可归因于ACTN3基因型,提示ACTN3可作为影响肌肉表现和训练敏感性的众多基因之一。
4)CNTF基因
睫状神经营养因子(ciliary neurotrophic factor,CNTF)是约200个氨基酸组成的多肽激素。由成熟个体外周神经中的施旺细胞、星形细胞中的一些亚细胞群体和中枢神经系统分泌的胞液分子,而非由靶组织分泌。CNTF最初被认为是睫状神经节副交感神经元培养时的营养因子,并由此命名。CNTF属于细胞素家族,由四个反向平行的α-螺旋束组成。不论从分子结构还是功能上都与这一家族的成员(例如:白血病抑制因子、细胞介素-6等)很相似,没有典型的信号肽结构,分子内没有N-糖基化位点,只有第17位有一个半胱氨酸,因此分子结构内没有二硫键。CNTF这些特点为其功能提供了结构基础。
CNTF对神经的作用主要体现在促进体内外多种神经元的存活和损伤的恢复、阻止神经元损伤后的衰退及影响神经元分化等方面。CNTF对肌肉起直接营养作用:它不仅维持正常骨骼肌的形态和功能,而且能增加肌纤维数目、减少骨骼肌由于去神经支配、衰老和长期无负荷造成的肌萎缩、肌肉力量下降和肌肉性质的变化。
人的CNTF基因位于11 q12,为单拷贝基因,基因结构也比较简单,含2个外显子及1个内含子。它共有50多个多态位点,通过片段插入、片段缺失和基因定点突变法改造 h/rCNTF编码基因发现,螺旋的完整性对 CNTF的功能是非常重要的。Takahasi等报道了CNTF基因内含子与第二外显子的连接处的一个无义突变(G/A),产生断裂受体位点并编码无效的蛋白质。Roth等在横跨20~90岁健康人群中,首次研究了CNTF基因多态性和肌肉力量、功率和质量的关系。以年龄、性别和体重为协变量后发现,伸膝肌(KE)和屈膝肌(KF)在3114 rad/s的向心峰力矩,G/A杂合子群体显著大于G/G纯合子(P<0.05),此外,KE的肌肉质量在G/A杂合子也显著高于G/G纯合子(P<0.05),G/A纯合子群体KE和KF在0152 rad/s的离心峰力矩也显著高于AA纯合子群体,研究还表明,随肌肉收缩速度增高,G/A基因群体肌肉力量和质量显著高于G/G群体的肌肉力量和质量。表明CNTF基因G/A多态性可能与肌肉力量关联。
目前,Folland等对普通群体的研究表明ACE基因ID多态与等长训练相互作用,携带D等位基因的群体股四头肌的等长力量增加显著。(X ± SD,II:9.0 ± 1.7 %,ID:17.6 ± 2.2 %;DD:14.9 ± 1.3%)。还没有研究对其作用机制进行探讨。
还有来自其他方面的一些研究表明,很多基因可能与肌肉力量关联,甚至是肌肉力量的一个累效基因,如IGF-I,VDR基因等等。
3.研究的局限性与未来的趋势
查阅相关文献,发现国内外没有一个实验室和课题组对杰出运动能力的基因基础进行过或正在进行系统研究。在耐力方面,目前在国外主要有两个实验室作这方面的研究,一是以Montgomery为首的英国科研小组,其主要工作局限在对ACEID多态的研究,其研究设计相对严密,但是其样本量很小(33~79)。二是以Bouchard为首的加拿大科研小组,目前多数的工作是由该科研小组做的,但其研究有两个缺陷:1)受试者样本量较大,但是来自多种运动项目、不同种族;2)确定杰出耐力的标准是VO2 max的高低。VO2 max的高低是优秀耐力的一种表型,并不是耐力成绩的惟一决定因素。Sjodin等曾指出VO2 max、RE(VO2 max15kmh)和在马拉松速度时对氧的利用是马拉松成绩的决定因素,马拉松成绩相似的运动员其 VO2 max相差很大。此外20周的耐力训练时限不足以使相关基因得到最大限度的表达,这直接影响了结果的可靠性。在国内,只有以马力宏为首的科研小组做了初步的探索性工作。对于肌肉力量,虽然目前没有直接对基因和杰出肌肉力量的关系进行研究,但是其他方面的一些研究表明,很多基因可能与肌肉力量关联,甚至是肌肉力量的一个累效基因,如IGF-I基因。因此,迫切需要做系统研究工作。
利用先进的基因克隆技术和DNA测序结合探寻:1)杰出耐力运动员特有的基因;2)特殊群体特有的基因,如在高原居住的种族。已有研究表明西藏人VO2 max和AT低于普通海拔的群体,但有高的运动能力,有关研究推测其机制可能是遗传因素和外周机制决定的。Morre等对15 %的mtDNA分析发现42种单体型,38种是西藏人特有的,其涉及62处mtDNA的突变,23处为西藏人特有,分布在所有呼吸链复合体、tRNA、mRNA的编码区。此外,进行连锁和关联分析时耐力的表型不要仅仅局限于 VO2 max。RE(running economy)、AT(anaerobic threshold)、氧动力学曲线(oxygen uptake kinetics)都是杰出耐力的重要限制因素,都可以作初步性的尝试。
遗传流行病学研究表明,杰出运动能力在很大程度上受控于基因,而遗传因素通过以下2个方面对人体运动能力产生影响:1)与环境因素和生活方式无关的基因对人群的平均影响,即遗传度;2)基因与环境的相互作用,即存在对运动训练敏感的高反应群体和对训练不敏感的低反应群体。但以往有关运动能力的遗传流行学的研究方法无论是双生子分析、家族分析还是种族差异比较,所估算出的遗传度仅仅表明在某一群体中,某一性状由亲代向子代可传递的平均程度,仅描述群体趋势,而不能作为预测个体遗传潜力的量化指标。杰出的运动能力是一个复杂的多因子性状,如:耐力受氧的运输、氧的转运、氧的利用等等诸多因素的影响,因此寻找决定运动能力和运动成绩相关的生理性状的基因基础,确定与杰出运动能力生理功能有关的基因是当务之急。现在与运动能力和体质相关的人类基因图谱的研究受到越来越多的研究者的关注,新的研究成果也每年都在更新,目前已经发现的在健康和运动能力中起作用的基因及有可能影响人类运动能力的基因列于表1-2。相信新技术、新方法的不断应用和完善,必将推动研究向更深层次发展。
表1-2 与运动能力和体质相关的人类基因名、基因定位及常用的缩写符号
续表
续表
续表
续表
续表
来自 http://www.ncbi.nlm.nih.gov/LocusLink 和 http://www.mitomap.org