人与黑猩猩基因组的相似度高达99%,人类独有的基因所占比例不到基因组的1%,但人与黑猩猩在各方面都有天壤之别。这1%的基因差异,究竟如何改造了人类?
撰文 凯瑟琳·S·泼拉得(Katherine S. Pollard)[1]
翻译 杨宁宁[2]
人与黑猩猩
● 在所有动物中,黑猩猩与人类的亲缘关系最近,两个物种间的基因组相似程度高达99%。
● 通过对人类与黑猩猩进化分离后,人类基因组中变化最多的一部分进行分析,或许可以找到让我们成为人类的基因序列。
● 上述发现能让我们认识到,为何在基因组差异极小的情况下,人与黑猩猩有如此大的差别。
6年前,我有幸加入黑猩猩基因组国际测序小组。该小组的主要工作是识别黑猩猩基因组中的DNA碱基——基因组这部“天书”的一个个“字母”。众所周知,黑猩猩是与人类亲缘关系最近的一个物种,作为一位一直对人类起源有着浓厚兴趣的生物统计学家,我迫不及待地把黑猩猩与人类基因组序列放在一起比较。结果令人吃惊:人类与黑猩猩的DNA“蓝图”竟然有99%都是相同的。也就是说,从600万年前人类与黑猩猩谱系进化分离后,人类基因组的30亿个字母中,只有1,500万个发生了改变,比例不足1%!
进化理论认为,在这不足1%的改变中,绝大部分都几乎或完全不会产生生物学效应。然而,在这1500万个碱基中,肯定还隐藏着一些特殊成员,让我们成为不同于黑猩猩的人类。我决定要找出它们。从那时起,我和其他科学家就在人类基因中寻找这些DNA序列,并取得了一些重要进展。
一段神秘的DNA序列
通过对比黑猩猩与人类的基因组,科学家发现了一段神秘的DNA序列:在人类出现之前,它几乎没发生改变,但人类出现后,它在人体内加速突变。
虽然只是人类基因组的一小部分,但上千万个碱基仍是一个巨大的搜索区域。为了便于搜索,我编写了一个计算机程序,用于扫描人类基因组,寻找自人类与黑猩猩从共同祖先分离以来,变化幅度最大的DNA片段。由于大多数随机突变都是“中性”的,对生物体既没好处也没害处,它们会以稳定的速率不断积累,因此根据突变速率,科学家就能推算出两个物种在进化上已分离了多长时间(突变率通常被称为“分子钟的嘀嗒声”)。有时,基因组上某些区域的突变速率会突然加快——这是正向选择(positive selection)的特征,其中有利于生物生存和繁衍的突变会有更高的几率遗传给后代。换句话说,自人类与黑猩猩进化分离以来,基因组中变化最大的,很可能就是让我们成为人的那部分序列。
2004年11月,在美国加利福尼亚大学圣克鲁斯分校的大型计算机群上,我编写的程序经过数月不断运行、调试和优化,最终为我输出了一个文件——快速进化的DNA序列清单,按变化程度的高低依次排列。当时,我的导师戴维·豪斯勒(David Haussler)就站在我身后,我激动地打开文件,看到了排在首位的DNA序列——由118个碱基组成,后来被命名为人类1号加速变化区(Human accelerated region 1, 缩写为HAR1)。利用加利福尼亚大学圣克鲁斯分校的基因组浏览器(genome browser),我开始着重研究这段序列。基因组浏览器是一个虚拟工具,能从公共数据库里的基因组信息中,挑选出与人类基因组某些序列相关的信息。我输入HAR1序列信息后,浏览器上显示出人类、黑猩猩、小鼠、大鼠和鸡的HAR1序列(当时,这些脊椎动物的基因组已被破译)。另一条显示信息是,虽然科学家此前并未研究过HAR1,也没有给它命名,但在以前的一些大规模筛选试验中,科学家曾在两个人类脑细胞样本中检测到HAR1的活性。当我和导师看到这条信息,证明HAR1可能是新发现的、具有活性的脑部基因时,兴奋得大喊:“太棒了!”
我们中了大奖。众所周知,无论从体积、组织构造,还是从复杂程度上,人脑与黑猩猩的大脑都有着较大差异。但我们还不清楚,到底是何种发育和进化机制,赋予人类独一无二的大脑——HAR1很可能是打开这个神秘领域大门的钥匙。
接下来的一年,我们通过比较不同物种的HAR1序列(包括在那段时间内完成测序的另外12种脊椎动物),竭力挖掘所有与HAR1进化史相关的信息。结果显示,在人类出现以前,HAR1的进化速度极为缓慢。鸡和黑猩猩的分化发生在3亿年前,它们的HAR1序列(118个碱基)仅有两个碱基不同;人类与黑猩猩的分化时间远短于3亿年,但两者的HAR1序列却有18个碱基的差异。在人类出现前的几亿年里,HAR1基本上没有发生改变,说明这段序列有着非常重要的功能;人类出现后,它突然产生变化,说明在人类谱系中,HAR1的功能发生了重大改变。
2005年,一个可能揭示HAR1功能的重要线索浮出水面。我的合作者比利时布鲁塞尔自由大学的皮埃尔·范德海根(Pierre Vanderhaeghen)造访加利福利亚大学圣克鲁斯分校时,从我们实验室带走了一只装有HAR1拷贝的玻璃瓶。后来,他利用这些拷贝设计了荧光分子标记,当HAR1在活细胞内被激活,合成相应的RNA时,荧光标记就会发光。一般说来,细胞中的基因开始表达时,首先会合成能在细胞内移动的信使RNA,细胞再以信使RNA为模板,合成自己需要的蛋白质。范德海根的荧光标记实验显示,在一种大脑神经细胞中,HAR1处于活跃状态。对于发育中的大脑皮层而言,拥有活跃HAR1的神经细胞能显著影响大脑皮层的形态和布局。如果这些细胞出了问题,会导致严重甚至致命的认知障碍——无脑回畸形(lissencephaly,俗称“平脑症”)。平脑症患者的大脑皮层缺乏特征性皱褶,皮层表面积明显变小。在成年人中,上述神经细胞功能失常则可能引起精神分裂症。
因此,HAR1必须在合适的时间和部位发挥作用,帮助大脑形成正常的脑皮层(其他证据表明,HAR1在精子形成过程中也可能发挥作用)。但是,这一小段DNA序列究竟如何影响大脑皮层发育?到目前为止,我和同事还在为解开这个谜团而努力,我们希望尽快找到答案:HAR1序列在较短时间内发生的快速突变可能显著改变了我们的大脑。
HAR1的特殊之处不仅在于它那引人关注的进化史,还因为它不编码任何蛋白质。过去几十年,分子生物学研究几乎全部集中在编码特定蛋白质的基因上,因为蛋白质是组成细胞的基本元件。人类基因组计划完成后,科学家才发现,能编码蛋白质的基因只占了人类基因组的1.5%。其余98.5%的序列有时被叫做“垃圾DNA”,其中包括调控其他基因表达的DNA序列;只会转录成RNA,而不翻译成蛋白质的基因(即非编码RNA基因);还有一些DNA序列的功能才刚刚为科学家所了解。
基于HAR1序列的结构特点,我们推测它是编码RNA的基因。2006年,加利福尼亚大学圣克鲁斯分校的索菲·萨拉玛(Sofie Salama)、哈勒·伊格尔( Haller Igel)和曼纽尔·阿瑞斯(Manuel Ares)证实了我们的推测。他们的试验结果表明,HAR1序列存在于两个重叠的基因中,为两个基因共同拥有,它编码一种全新的RNA结构,不同于已知的所有6类RNA基因。这6类RNA基因包括上千个RNA基因家族,每个家族在细胞中编码的RNA的结构和功能都不相同。另外,HAR1也是第一个有过文献记载的、似乎经历过正向选择的非编码RNA基因。
现在看来,这118个碱基如此引人注目,以前却没人研究过它们,似乎有些令人吃惊,但由于缺少比较全基因组的技术,科学家在当时很难认识到,HAR1并不是一段“垃圾DNA”。
实验
基因组扫描
为了在基因组中找出“让人成为人”的DNA序列,本文作者编写了一个计算机程序,用于寻找人类与黑猩猩进化分离后变化最多的DNA序列。排在首位的一段序列由118个碱基组成,被称为“人类1号加速突变区”(HAR1)。在大多数脊椎动物的进化过程中,这段序列变化极小,比如黑猩猩和鸡的这段序列只有两个碱基不同。然而,人和黑猩猩的HAR1序列却有18个碱基不同,说明HAR1在人类中具有一个重要的新功能。
■(紫色)与黑猩猩的DNA序列相比,人类的HAR1出现了较多变化
■(蓝色)与鸡的DNA序列相比,黑猩猩的HAR1相应序列只有两个碱基的变化
加速突变
加速突变区虽然只是人类基因组的一小部分,但这些区域一旦发生变化,就会影响整个基因网络的活性,使生物体发生重大改变。
基因组序列高度相似,为什么人类和黑猩猩却有如此大的差异?科学家通过对比其他物种的基因组,找到了解答这个问题的关键信息。最近几年,科学家测定了上千个物种的基因组序列(大部分为微生物),他们在研究中发现,相对于基因组发生突变的次数,碱基突变发生在基因组上的哪个位置,可能对生物体的影响更大——制造一个新物种,并不需要大规模改动基因组。整体上讲,从人类与黑猩猩的共同祖先进化到现代人类的过程中,分子钟的走动并未加快,只是在基因组的某些区域上,突变速率突然加快——这些区域的变化会对生物体产生重要影响。
HAR1正是这样一个重要区域。我发现,与人类语言能力有关的FOXP2基因也包含了一段加速突变序列。这个基因在语言方面的作用由英国牛津大学的科学家发现,他们在2001年发表文章称,如果某人的FOXP2基因发生突变,即使他具备处理语言的认知能力,也无法做出一些微妙而快速的面部动作,而这些动作是正常谈话所需要的。一般说来,人的FOXP2基因序列与黑猩猩的有几处不同:两个碱基突变使该基因的蛋白产物发生改变,还有些突变可能影响蛋白在何时、何处以何种方式发挥功能。
两年前的一项研究,还让我们看到FOXP2基因是何时出现在古人类中的:2007年,德国马普进化人类学研究所(Max Planck Institute for Evolutionary Anthropology)的科学家从尼安德特人的化石中,提取了FOXP2基因,并进行测序,他们发现这些灭绝人种带有和现代人类一样的FOXP2基因,说明尼安德特人也许能和我们一样发音。根据尼安德特人与现代人类祖先进化分离的时间判断,FOXP2基因肯定出现于50万年前。人类语言与其他物种的“口头交流”相比,大部分不同之处并非来自语言的外在形式,而是认知能力——这与动物的大脑体积相关。灵长类动物的大脑与身体的体积比要比科学家预想的更大,而且与黑猩猩进化分离至今,人类的大脑体积是猿类祖先的3倍多——这似乎是个突然增大的过程,而遗传学家才刚刚对此进行研究。
在人类与其他动物中,大脑体积相关基因的最佳研究案例莫过于ASPM基因,该基因上的缺陷将导致原发性小头畸形症,患者的脑体积不及正常人的30%。对这类患者进行的遗传学研究表明,ASPM和其他三个基因(MCPH1、CDK5RAP2和CENPJ) 控 制着大脑体积。最近,美国芝加哥大学和密歇根大学安阿伯分校的科学家表示,在灵长类动物进化过程中,ASPM基因经历了几次快速突变,这正是正向选择的标志。其中,至少有一次突变发生在与黑猩猩进化分离后的人类祖先中,对人类大脑的进化产生了重要影响。
相对而言,基因组的其他部分对人脑形态并没有什么直接影响。我编写的那个扫描程序除了发现HAR1外,还发现了另外201个人类基因组加速突变区,其中大部分区域都不编码蛋白质,甚至不会转录成RNA。英国桑格研究所的一项研究也观察到了人类基因组中的加速突变区。实际上,这些突变区都是调控周围基因表达的DNA序列。令人吃惊的是,在加速变化区周围的基因中,50%以上都跟大脑发育及其功能有关,而且它们编码的蛋白质还能调控其他基因的活性(FOXP2基因也是这样)。因此,所有加速突变区虽然只是人类基因组的一小部分,但这些区域一旦发生变化,就会影响整个基因网络的活性,深度改变人类大脑。
适应性改变
为了适应不断变化的环境,人体产生了很多适应性改变:更多的淀粉酶基因拷贝让我们可以消化高淀粉食品,突变后的乳糖酶基因让很多成年人能消化乳糖……
虽然遗传学研究大多致力于阐明人类大脑的进化过程,但科学家也在探索人体其他方面的独特之处是如何进化出来的。HAR2(人类2号快速突变区)是一段基因调控序列,它的突变速率仅次于HAR1,目前已成为又一个研究焦点。2008年,美国劳伦斯伯克利国家实验室的科学家研究表明,相对于非人灵长类动物基因组中的对应区域,HAR2上有数个碱基发生突变。正是这些突变,让HAR2能在胎儿发育期激活孩子腕部和拇指中的基因,而非人灵长类动物的相应DNA序列则不具备这样的功能。这一发现非常重要,因为HAR2上的碱基突变促使人类手部形态发生变化,让手更加灵活,便于制造和使用复杂工具。
研究发现
区别DNA
在寻找人类独有的DNA序列的过程中,科学家发现了不少与黑猩猩不同的人类DNA序列。下图展示了部分这类序列以及它们的一些功能。
除了形态改变,我们祖先在行为和生理上的变化,也有助于他们适应环境变动。100多万年前,人类征服了火;1万年前,农业出现。这些改变让我们的祖先更容易获得高淀粉食物。不过,行为和文化的改变并不能保证人们充分利用高热量食物,我们的祖先必须从遗传机制上适应它们。
AMY1基因上的突变,就是祖先们作出的一次适应性改变。这个基因编码唾液淀粉酶(salivary amylase),能快速分解食物中的淀粉。哺乳动物的基因组中,含有多个AMY1基因拷贝,不同物种甚至不同人之间,该基因的拷贝数都会不同。不过,与其他灵长类动物相比,人类的AMY1基因拷贝数尤其多。2007年,美国亚利桑那州立大学的遗传学家证明,基因组中AMY1基因拷贝数越多的人,他们唾液中含有的淀粉酶也越多,能消化更多的淀粉。因此,AMY1基因的进化不仅涉及特定碱基突变,还涉及基因拷贝数的变化。
另一个与饮食相关的适应改变与乳糖酶(lactase ,简写LCT)基因有关。乳糖酶是哺乳动物用于消化乳糖(lactose)蛋白质。对于大多数动物而言,只有在哺乳期才能消化乳糖。但在大约9000年以前——从进化的角度来说,这是一个很短暂的时间,人类基因组发生了某些变化,让成年人也拥有了乳糖酶,可以消化乳糖。改良后的乳糖酶在欧洲和非洲人群中独立进化,因而这两个大陆的成年人一般都可以消化家畜生产的奶类食品。他们对乳糖具有高度耐受性,远非世界其他地区的人可以比拟,比如亚洲和拉丁美洲人,这两个大陆的成年人大多携带原始的乳糖酶基因,很难消化乳糖。
乳糖酶基因并非唯一已知的、正在人类中进化的基因。通过黑猩猩基因组计划,科学家发现了另外15个正在人类中发生改变的基因。这些基因的原始型普遍存在于我们的猿类祖先中,在其他哺乳动物体内也能正常发挥作用,但在现代人类中,原始型基因却与阿尔茨海默病、癌症等疾病相关。这些疾病中,有几种只会困扰人类,或在人类中的发病率远高于其他灵长类动物。科学家正在研究上述基因的功能,并试图解释原始型基因为什么会导致不适应症状。这些研究不仅有助于医生辨别哪些人更容易患致命性疾病,帮助患者抵抗病魔,还有利于科学家开发新疗法。
DNA上的病毒遗迹
很多致命病毒都曾将自己的DNA插入人类基因组。为了生存和繁衍,人类基因作出了相应的改变。在当今人类的DNA上,至今仍残留了古老病毒以及人类抗争的遗迹。
战胜疾病,将自身基因遗传给后代——在人类和所有物种的进化史上,这似乎是个永恒的主题,而最激烈的斗争,往往发生于免疫系统中。每当科学家在人类基因组里寻找正向选择的迹象时,头号候选对象通常与免疫系统相关。为什么进化要大幅“修改”
生物体的基因?答案并不令人惊奇:在没有抗生素和疫苗的年代,生物体要将基因遗传给下一代,最大的困难可能就是在适育年龄感染致命疾病。对于人体防御而言,提升免疫系统的进化速度是适应病原体的一贯策略,这也导致了人与微生物之间的一场进化上的“军备”竞赛。
抗争的记录至今存在于我们的DNA中,逆转录病毒(retroviruses)留下的印记尤为明显。在人体内,这些病毒要生存和繁衍,必须将自身遗传物质插入人类基因组。因此,在我们的DNA中,散布着很多病毒基因组的拷贝,它们大多来自数百万年前会引发疾病、如今已不再流行的逆转录病毒。随着时间的流逝,病毒基因也会像人类其他DNA序列一样发生突变并不断累积,因而这些基因虽然相似却并不相同。通过测量病毒基因间的差异程度,科学家可以利用分子钟技术,推断相应的逆转录病毒最初是何时感染人类的。由于宿主免疫系统的基因需要不断改变,以对抗进化中的逆转录病毒,这些古代感染性疾病留下的痕迹,也能在免疫基因上观察到。
PtERV1就是这样一个已不再流行的古老病毒。在现代人类中,一个叫做TRIM5α的蛋白能够阻止PtERV1及类似逆转录病毒的复制。遗传证据显示,400万年前,PtERV1引起的传染病,曾给非洲的远古黑猩猩、大猩猩和人类带来一场大灾难。2007年,为了了解不同灵长类动物如何对付PtERV1病毒,美国西雅图弗雷德·哈钦森癌症研究中心(Fred Hutchinson Cancer Research Center)的科学家利用黑猩猩基因组中,许多发生过随机突变的PtERV1基因拷贝,重建了PtERV1的原始基因序列,并复制出这个古老的逆转录病毒。然后,他们展开一系列试验,观察人类和大型猿类动物的TRIM5α蛋白如何抑制PtERV1。研究结果表明,人体内编码TRIM5α蛋白的基因曾发生过一次单碱基突变,让我们的祖先比其他灵长类动物的祖先更能抵抗PtERV1感染(人类TRIM5α蛋白上的其他改变,可能是在对抗PtERV1类似病毒时进化出来的)。在其他灵长类动物中,TRIM5α蛋白上也有一系列变化,这或许是它们的祖先战胜逆转录酶病毒的证据。
然而,人类战胜一类逆转录病毒,并不意味着也能成功对抗其他病毒。TRIM5α蛋白上的改变,帮助人类击败了PtERV1,但这样的改变却难以对付HIV。这一发现有助于科学家解开一个谜团:为什么HIV会在人类中引发艾滋病,却对非人灵长类动物没有影响?显然,进化是一个谨慎的过程,可以踏出试探性的一步,如果出错也可以立即退后两步。有时,科学研究也是这样。我们已经鉴别了许多令人兴奋的候选基因,它们能帮助我们从遗传学上解释人类的独特之处。不过,到目前为止,我们对人类基因组的了解还停留在基础阶段,尤其对于HAR1、HAR2等非编码序列的认识,还存在巨大的缺陷。
这些快速进化的、人类独有的基因序列为我们指明了研究方向。要弄清楚人类为什么能成为人类,我们的研究重点不应该是组成人体的蛋白质单元,而是进化如何通过改变人体内不同基因的表达时间和地点,然后以一种全新方式重新组装蛋白单元。目前,全球数千个实验室正展开试验和计算机模拟研究,阐明人类基因组中98.5%的非编码序列到底有何作用——每天的进展都让我们感觉到,这些序列越来越不像无用的垃圾。
脑部形状:在基因组中,特定序列上发生的改变会对脑部产生戏剧性影响。例如,相对于正常人脑(上图),ASPM基因的突变会使脑部体积产生显著缩小(中图),说明该基因在人脑进化为大体积脑的过程中具有关键性作用。同时,在发育过程中,如果内含活跃HAR1的神经细胞功能失常,大脑皮层就不能正常折叠(下图),从而导致严重疾病,这一现象说明,HAR1对于健康大脑皮层的形成至关重要。
扩展阅读
◆Mapping Human History: Discovering the Past through Our Genes. Steve Olson. Houghton Mifflin, 2002.
◆The Ancestor’s Tale: A Pilgrimage to the Dawn of Evolution. Richard Dawkins. Houghton Mifflin, 2004.
◆Initial Sequence of the Chimpanzee Genome and Comparison with the Human Genome. The Chimpanzee Sequencing and Analysis Consortium in Nature, Vol. 437, pages 69–87; September 1, 2005.
◆University of California, Santa Cruz, Genome Bioinformatics Web site: http://genome.ucsc. edu
[1] 凯瑟琳·泼拉得是美国加利福尼亚大学旧金山分校的一名生物统计学家。2003年,她在加利福尼亚大学伯克利分校获得博士学位并完成博士后研究后,前往加利福尼亚大学圣克鲁斯分校任职,主要从事比较基因组学研究。在此期间,泼拉得参与了黑猩猩基因组计划。她利用黑猩猩基因序列,去寻找人类基因组中进化最快的区域。2008年,她获得了美国斯隆研究基金的计算与进化分子生物学研究经费,开始研究人体内微生物的进化过程。
[2]杨宁宁,英国伦敦大学学院遗传、进化和环境系遗传学博士,目前主要从事美洲土著人遗传进化史相关研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。