第3章 DNA大夫
收件人:马克·索恩
发送时间:5月18日下午5:00
主题:转发:DNA大夫,一步一步来
-------原始邮件-------
发件人:斯坦利·陈(cstanley@dnadaifu.com)
发送时间:星期二,5月18日上午2:29
收件人:陈莉莉
主题:DNA大夫,一步一步来
亲爱的莉莉:
我是斯坦利。你们一家人在北京的新房子里住得还开心吧。现在算来住了也有一年了,对吧?今年艾玛上学了吗?
我现在还在Tatcham Financials公司,负责管理他们的生物技术IP以及投资事务,主要是把大学合作者的PPT展示文稿翻译成法律文件。虽然有趣,但是我并不准备长期做下去。
所以我现在开始认真打探基因公司的相关情况,我们上次聊过这个的。首先,请记下我的新邮箱。以你现在的中文水平,读这个应该没问题了,DNA大夫,就是DNA医生。之前的那个邮箱也还可以用。我准备在中国创立一家提供基因检测服务的公司,客户给我们提供DNA样本(就是往试管里吐口水),我们做测验,然后他们就可以在DNA大夫网站上查看他们的基因检测结果。美国有一些公司已经尝试过了,可能挣不到多少钱,但是毕竟挖掘到了大量的基因数据。中国和美国的市场行情很不一样,我个人觉得中国是个不错的市场。
我已经开始搭建网站了。虽然现在还没法提供任何服务,但是我的想法是先建立一个Wiki网站,所有用户都可以对上面的内容进行自主编辑。我们与自身基因之间存在什么联系?这个答案不应该由医生来告诉我们,这是个人的私事,个人应该享有足够的自主权。这也是Wiki网站的初衷:给DNA大夫的用户们以基因的自主权。虽然我在把这种想法写下来的时候觉得有点乌托邦,但是Wiki网站最终会成为用户获取信息的一条渠道,公开且自由。这里就需要你们的支持和帮助了。我觉得建立一个基因服务社区非常重要,这样就可以鼓励人们分享自己的基因信息,帮助其他人了解基因。
为了讨投资者欢心,我应该反复使用在Tatcham学到的商务谈判技巧。我们会通过提高信息粒度来留住客户,这句话听着不错吧?我还得想想在哪里加上“利用网站保留客户的能力挣钱”这句话,这样商业模型就完成了。虽然听着很傻,但是金融界的那些人就喜欢听这样的话。
话说回来,我是不是只跟马克提过这件事?我想了想,你当时好像在厨房帮忙。你可能不太理解我说的话,没事,去问问马克吧,他肯定可以告诉你细节。或者去网站上看看。虽然现在Wiki还有点简略(而且不允许他人编辑,可能还不算Wiki),但是输入“DNA”,还是可以查到基因、基因类型和SNP(单核苷酸多态性)等内容的。
我写信就是为了告诉你你最喜欢的堂哥(没错,就是我啦)最近都在做些什么。我已经选择你和马克做我的第一批客户了,更准确地说,因为是免费的,所以你们是我的第一批研究对象,也就是小白鼠。这样我才能告诉投资者我们正在对一群中国人进行抽样检测。我已经自作主张给你们寄了DNA取样试纸,这周就会寄到北京。你们一人一个口腔拭子和一个唾液收集器。用起来都很方便,我希望对两者都进行检测。你们用完拭子之后把它寄给我,我会对样本进行检测,并把你们的检测结果上传到网上。我现在还在研究基因分型的最佳方案,所以可能需要花一段时间,万事开头难嘛。
祝我好运吧,谢谢你们的帮忙!
斯坦利
发送自:爱德华·龙
5月18日下午6:33
嗨,莉莉。我今天帮了你的忙,明天吃午饭的时候你也得帮帮我的忙啊。财富律师事务所让我去大东吃午饭。在北京还拿烤鸭当午餐也太俗气了,但是为了两家公司的合作,我还是得去。谢谢啦!
发送自:陈莉莉
5月18日下午6:36
你没发现我看不懂中文吗?还是说你就想表现得像个不折不扣的王八单?
发送自:爱德华·龙
5月18日下午6:40
你说的是王八蛋,不是王八单吧。你会的中文越来越多了,不错啊。相比我这个真正的外鬼,你的中国血统会帮你大忙的。
基因组学
基因组学是一门对生物体体内所有遗传信息进行研究的学科。这种信息的载体主要是DNA,尽管更准确地说,一些病毒往往会通过RNA而不是DNA进行传播。DNA和RNA都是复杂的分子结构,它们可以形成令人难以置信的长链;如果将人类染色体(一束DNA,人体内的每个细胞都会包含23对染色体)伸展开来,平均长度可以达到2英寸 长。看似不长,但是考虑到人体正常的皮肤细胞直径只有0.000 1英寸,如果没有能够折叠DNA的蛋白,那么一个正常的细胞是很难容纳那么多对DNA的。
基因组学与遗传学不同,遗传学主要研究个别基因的结构和功能。与之相反,基因组学的研究对象是生物体内的所有基因,包括基因之间的DNA,以及它们如何共同赋予生物体生命的。在科学家看来,遗传学是一种“动手做”的科学,需要在实验室、诊所和田间进行实验,然后慢慢分解单个基因的结构原理。基因组学的范围则更为广阔,即使没有实验室和谱系图,还是可以大致分析所有基因的作用原理。换句话说,遗传学主要是常规科学家的实验研究工作,基因组学则是一个偏理论的研究领域,会涉及高通量测序中心、计算机和统计学等知识。
基因组学同时也是一门将一个人的DNA与另一个人的DNA、一个物种与另一个物种进行对比的科学。尽管每个人都是不一样的存在,但是一个人体内的大多数DNA与地球上其他人体内的一样,只是在每100个碱基对中会出现一个突变位点。
这种相似性不仅仅存在于有亲缘关系的人之间,而是对所有人而言,我们的相似度都超过了99.9%(一般而言)。因此人类与大猩猩之间大概只有2%的基因是不一样的。差别主要取决于单碱基突变,有时候也简称SNP(单核苷酸多态性)。染色体中存在大量的DNA重置现象,数量多少因物种而异。这种重置现象并不会对DNA测序产生影响,但是的确会阻碍不同物种之间的交配。
基因组学是一门相对较新的科学,对整个基因组进行测序的机会只有一次。20世纪70年代晚期,弗雷德·桑格 在测序方面取得了重大突破,也推动了基因组测序技术的产生,目前存在若干种高效率、低成本对基因样本进行测序的方法。对人类基因组进行大规模的测序工作始于20世纪90年代,并于2007年宣告完成。
在全球大量学术组织和政府项目的支持下,对人类基因组的测序得以有条不紊的展开。首先,必须描绘一幅基因在染色体上的分布简图。其次,要为所获取的序列信息创建了标准化的存储机制和组织机制,便于汇总不同实验室取得的成果。最后,还要通过测序确定人类染色体中的每一个碱基对,从而完善基因分布图。
这项庞大的公共项目由詹姆斯·沃森领导,在长岛的冷泉港实验室进行。20世纪50年代晚期,詹姆斯·沃森与弗兰西斯·克里克和罗瑟琳·富兰克林一起发现了DNA结构。一直以来,这个项目都朝着一个伟大的目标逐步推进,也没有定下具体的截至日期,许多国际会议和研讨会都对此寄予了厚望。然后在20世纪90年代晚期,一家由克雷格·文特尔创建的私人公司——赛雷拉基因公司,进入了该领域,并且宣称他们可以更加独立(且更快)地完成人类基因组测序。面对一家持有大量人类基因组专利的对手的威胁和克雷格·文特尔更快更好的工作能力的刺激,项目组只好更加努力。最后双方差不多在同一时间完成了人类基因组测序工作。赛雷拉基因公司表示他们得到的是对克雷格·文特尔进行测序的结果,这在当时还引发了不少的争议。与之相反,公共项目组则使用了大量匿名捐赠者的DNA。后来,公共项目组也对詹姆斯·沃森进行了测序,两个人的测序结果也都被公之于众。但是外界并不欣赏在个人自尊驱使下所取得的科学进步。
发送自:爱德华·龙
5月1日下午6:52
对于明天的安排,我有个好主意。财富律师事务所的那群人貌似有点传统,我觉得他们会喝白酒,但是我一喝白酒就头痛。千万不要是二锅头啊!3:00之前请帮我盯下梢。就像我教你的那样登录、盯着市场行情直到我回来就可以了。
发送自:爱德华·龙
5月1日下午6:55
最后一点。不要忘了我下午2:30跟王氏资本的人开会。他们可能会说英语。
发送自:陈莉莉
5月18日下午6:55
爱德华,我还有自己的工作要做呢。自己去开你的狗屁会吧!
通过复制DNA生成一条RNA,然后可能会被翻译成蛋白质,会导致DNA链小部分片段的消失。
图3-1 基因的转录
基因
基因是存储遗传信息的单元。人类遗传信息主要以基因为组织形式,大量信息以长条编码的形式分布于基因中。虽然“基因”这个术语在大众文献和科技文献中频繁出现,但是至今还没有统一的定义。学界也开始逐渐意识到似乎不可能给出一个简单的基因定义。尽管如此,基因的一般定义还是通俗易懂的:基因是具有编码功能的DNA分子片段。有时候可以翻译成蛋白质,有时候可以反转录成RNA。有时候会对蛋白进行编码,有时候会对RNA分子进行编码。对组成DNA的四个碱基(腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶,通常简写为A、C、G、T)进行测序就可以定义基因编码了。
基因的典型结构呈线性。线的一端是启动子,这是一个有助于启动转录因子、识别DNA的基因区域。它通过融合DNA的两个化学链来识别基因,这两条化学链互相结合、缠绕,形成了DNA典型的双螺旋结构,互为镜像。通过打开螺旋上升的转录因子可以为读取基因信息创造更大的空间。将DNA片段复制到RNA化学链上,即意味着读取基因信息的开始,一般情况下,这个RNA化学链紧接着就会被转换成蛋白质。一旦开始DNA复制,转录机械作用就会贯穿整个基因。一个基因可能包含几十个碱基,甚至数千万个。通常情况下,基因的末端是一系列“结束”的标志,这种结束标志可以放缓转录的速度并最终从基因脱落。基因末端的起止点不明确且跨越了大量DNA片段,这也是基因难以定义的部分原因。更令人困惑的是,一个基因片段有时候会对多个叠加的转录产物进行编码。在被转化成蛋白质之前,由DNA转录生成的RNA链都会经过多次处理。大部分RNA被转化成蛋白质之前会被剪断,而且这些RNA链经常被切割和组合,或者以多种方式“拼接”,拼接方式不同,产物也就不一样。
图3-2 复杂的基因结构
许多不同的RNA可以被染色体的某一片段编码,从而生成若干种不同的蛋白质。DNA上被实际转化为蛋白质的区域表现为DNA和RNA化学链上的一部分序列。
请注意,每个性染色体都只有一个拷贝,父亲贡献Y染色体,母亲贡献X染色体。
此外,上述启动子是一个复杂的片段,被其他所谓的“增强子”或者“阻遏物”的DNA片段强化,对是否转录基因以及转录到何种程度起决定性的作用。这些调控区域可以覆盖大面积的范围,甚至几个基因,还可以在基因之间实现共享。
图3-3 一个正常男性的染色体对
通常情况下,每个蛋白质都对应着一个基因。但是因为父母双方都会给子女一个拷贝的染色体,所以我们就有了两套互补的基因,父母双方各贡献一套。染色体是一个DNA单链的聚合体,其中包含大量基因。人体内的每个细胞中都包含了46个染色体,其中23个来自母亲,另外23个来自父亲。因此一般而言,每个基因都有两个拷贝。但是性染色体上的基因是个例外。性染色体即X染色体(来自母亲或者父亲)和Y染色体(只可能来自父亲)。女性体内都包含两个拷贝的X染色体,男性体内则包含一个拷贝的X染色体和一个拷贝的Y染色体。所以如果是X染色体上的基因,那么男性就只会有一个拷贝的该基因;如果是Y染色体上的基因,也只有一个拷贝的该基因。因为女性只有两个拷贝的X染色体,没有Y染色体,所有如果是X染色体上的基因,那么每个基因就都会存在两个拷贝。
图3-4 单个基因的遗传突变可以解释某些人长红头发或雀斑的原因
正是因为成对基因的存在,我们才可以辨别孩子的性状是遗传自父亲还是遗传自母亲。当我们说“她和她父亲眼睛一样”时,我们表达的意思是遗传自父亲的基因拷贝决定了她眼睛的颜色,相比之下,母亲的基因拷贝影响要小得多。举一个简单实际的例子,雀斑的存在就常常被解释为单个基因(黑皮素受体,MC1R)的常见突变。假设孩子有一个拷贝的正常基因以及一个拷贝的突变基因,而且这个突变基因占据了优势,那么他可能就会长雀斑。如果他有两个拷贝的突变基因,那么他可能会长很多雀斑,而且发色偏红。所以父母一方,这里假定是父亲,头发是红色的,而母亲的头发是黑色的,长有雀斑,由此可知父亲可能会有两个拷贝的MC1R基因,母亲只有一个拷贝的MCIR基因。他们的孩子总会从红头发爸爸那里遗传到一个拷贝的突变MC1R基因,从母亲那里遗传到一个拷贝的可能正常、可能突变的MC1R基因。所以只有个别孩子会长红头发,而所有的孩子都会长雀斑。为了更深入地讨论,请看下面的性状遗传。
发送自:爱德华·龙
5月18日下午6:55
既然你引用了美国最好的电视剧之一《萤火虫》里的台词,那我就不让你帮我开电话会议了。我还以为我帮了你的大忙之后你会对我好一点呢。唉,好像并没有啊。