一直以来,牛奶都被当作一个正面的意象。麦克白夫人的丈夫在犯下弑君罪行前,因为心中尚存“纯良人性的乳香”而犹豫不决,《出埃及记》的第3章向希伯来人承诺了“遍地流淌着牛奶和蜂蜜的理想地”,直到今天,我们还用“如母乳般纯良”来形容无害的事物。然而,对于这个世界上超过半数的人来说,一杯牛奶并不意味着健康的生活,而是如假包换的毒药。牛奶对他们来说意味着胀气、放屁和腹泻,这是因为他们体内缺乏消化牛奶中特有的乳糖的消化酶。没有这种酶,人体就无法降解乳糖,而人体内的微生物很乐意清理原封未动的乳糖,正是它们的代谢产物引发了人体的不适反应。
乳糖不耐的人曾经也能够消化母亲的乳汁。在幼年时,他们体内的乳糖酶基因是激活的。用专业的术语来说,这些基因是表达的(expressed),基因表达的意思是:编码乳糖酶的DNA指令被转录为RNA,RNA继而被翻译为相应的蛋白质,也就是酶。乳糖不耐就是源于成年人体内的乳糖酶基因被永久关闭,不再表达。这种可以激活或者关闭的基因,我们称之为“可诱导基因”(regulated genes)。
对于多数人来说,成年后体内的乳糖基因关闭才是常态。如果你有幸能够耐受乳糖,那么说明你在乳糖酶基因控制区存在一个突变,这个紧邻酶基因的突变使得你的乳糖酶基因在成年后仍然可以持续表达。由于这种耐受乳糖的突变最早广泛流行于从事畜牧业的人口中,所以没准你的某个遥远的祖先就是一位爱喝牛奶的奶农,悠闲地生活在东非或者斯堪的纳维亚。乳糖耐受能力如野火燎原,只是眨眼之间——人类发展畜牧业的历史只有大约区区8 000年,在某些人口中的突变率就从0%蹿到了90%。乳糖耐受是近世代自然选择在人类基因组中留下的最深刻的烙印之一。
说来可能没人相信,但是乳糖诱导的消化不良与自然进化有着密切的关联。两者的联系在于调节,类似于乳糖酶基因开关的分子调节。除了引起肠胃不适,基因调节还与数不清的生物形态有关,如水母波动起伏的“伞”,鲨鱼犹如水雷般致命的身形,玫瑰窈窕纤细的茎秆,红杉树巨大粗壮的树干,毒蛇吓人的条形躯干,野兔疾步如飞的四肢,还有鸟儿用以翱翔的双翅。从细胞中第一个平衡细胞的生长开始,基因调节就从细胞依旧利用RNA作为基因组的远古时代出现了。30亿年之后,地球上每一种生物形体的发育和塑造中都有基因调节的参与。如果我们不能理解新的基因调节如何出现,也就无法完全理解新性状的进化如何完成。
虽然无论生物多复杂,它们的形态和功能都受到基因调节的控制,但是对其的研究最容易在简单的单细胞生物中开展,比如细菌。两名法国遗传学家,弗朗索瓦·雅各布(Francois Jacob)和雅克·莫诺(Jacques Monod)正是借此获得了诺贝尔奖。他们的工作开始于20世纪50年代,当时DNA双螺旋模型刚面世不久。他们主要阐明了原始的细菌,比如大肠杆菌,如何通过调节基因的表达使自身获得代谢乳糖的能力。
基因表达始于一种复制分子,我们在第4章埃里克·海登的实验中简单介绍过类似的连接酶。这种复制分子是一种聚合酶,能够催化合成聚合物,也就是由许多更小的单位构成的长链分子。在基因转录为RNA的过程中,这些基本的单位分子就是4种不同的核苷酸。当RNA聚合酶要转录一个基因时,它会首先黏附到目标基因的DNA上,并沿着DNA序列一个碱基一个碱基地滑动,同时合成一条RNA链,它的碱基对序列和目标基因的完全对应。细菌正是通过这种方式合成了它们的乳糖酶变体,我们称之为β-半乳糖甘酶(beta-galactosidase,这个酶的名字非常拗口,所以通常会缩写为betagal)。它会把乳糖分解为结构相对简单的葡萄糖和半乳糖,而后其他酶再利用这两种糖摄取所需的能量和碳原子。
细菌以一种称为转录调节因子(transcriptional regulator)的分子控制β-半乳糖甘酶基因的转录。通常情况下,调节因子的作用只有一个:它占据着某个基因相邻的一小段DNA。细胞内的液态环境中漂浮游荡着无数这样的调控分子,一旦它们遇上特定的DNA序列,即一段DNA“指令”,就会与之结合。不同的调节因子识别的序列也不同,β-半乳糖甘酶的调节因子识别的序列为G-A-A-T-T-G-T-G-A-G-C。
与酶一样,让这种识别成为可能的同样是依靠蛋白质分子的空间折叠。调节因子与相应的DNA需要在形态上互补,就像能够互相拼接的乐高积木。这个比喻很形象,但是并不太贴切,因为性状并不是互补的关键。确切地说,相互靠近的两个分子必须发生相应的形变,否则就无法发生互补。另外,乐高积木只有10多种不同的形状,而分子的形状则丰富得多,蛋白质有数万种不同的结构,而DNA的结构数量则更在这个之上,几乎和人类语言中所有的词汇数量相当。
除此之外,与乐高积木不同,许多分子的形状改变是自发的,不仅像酶一样发生在平时的分子震动中,同时也发生在分子间相互结合的时候。这种形变就像你用正确的钥匙开锁:只有在正确的钥匙插入的时候锁芯才会转动,门才会打开,只不过在分子中,是热能而不是钥匙在转动“锁芯”。
像乐高积木一样的调节因子在以一种最简单的方式调整β-半乳糖甘酶的合成:它识别的关键词恰好在多聚酶转录的起始位置,调节因子与之结合抑制了多聚酶的作用(如图5-1的上半部分所示)。当环境中没有乳糖分子存在时,调节因子(R)与“关键词”结合并阻止多聚酶(P)读取基因序列,于是基因就处于关闭状态。
图5-1 基因调节
为了能够利用乳糖,当环境中出现乳糖时,细菌必须找到去除转录障碍物的方法。如果说调节因子不仅能够与特定序列的DNA结合,还能与其他分子结合,就像一块乐高积木可以与其他许多积木拼接,那么细菌利用乳糖的能力就更好理解了。所谓的其他分子,正是乳糖。当作为钥匙的乳糖插入到作为锁的调节因子里后,后者的分子形状就会发生改变(如图5-1中的菱形)。产生形变的调节因子从DNA上脱落,这时多聚酶就能自由地进行转录,一个接一个碱基将其转录为RNA,然后再经过细胞翻译,量产出β-半乳糖甘酶。总而言之,只要周围的环境中还有乳糖,β-半乳糖甘酶基因就可以被激活,继而被合成,否则由于转录受到阻碍,乳糖酶基因将再次关闭。
β-半乳糖甘酶是一种了不起的酶,但“天下没有免费的午餐”。一个表达β-半乳糖甘酶的细菌体内可不会只有几个β-半乳糖甘酶蛋白质,而往往会有3 000多个β-半乳糖甘酶分子,合成它们中的每一个都需要超过1 000个氨基酸分子,合成的原料和能量都需要细胞提供。按照常识,细胞应当对β-半乳糖甘酶的合成进行调节以避免浪费原料,不过我们不能仅凭直觉揣测大自然的想法,不然生物学家们可就都要失业了。由于同一时间内有细胞在同时合成数百万个不同的分子,所以持续合成β-半乳糖甘酶的消耗很可能微不足道。此外,让基因长期处于激活状态还有一个好处,那就是当环境中突然出现乳糖时,细菌能够在代谢上抢得先机。
2005年,以色列魏茨曼研究所(Weizmann Institute)的埃雷兹·德克尔(Erez Dekel)和尤里·阿龙(Uri Alon)希望能够弄清表达β-半乳糖甘酶的确切消耗。他们欺骗细胞,让它们以为周围的环境中有乳糖,实际上却并没有。即便如此,细胞依旧激活了β-半乳糖甘酶基因,如果这种浪费足够显著,它将会在细胞的分裂速度中有所体现。事实上也的确如此,它们的分裂速度降低了数个百分点。打个比方,这就像资金周转不畅的开发商在房屋施工的时候,非要修一个他并不需要的游泳池,游泳池占用了他的资金和物料,最后只能牺牲室内的装潢。相比之下,另一个更优秀的建筑商会尽快完工,卖掉房子之后再建新的房子,而此时上面说到的那个开发商还在为游泳池里铺什么样的瓷砖而头疼。
仅仅几个百分点的工程拖欠似乎算不上什么大事,对于大肠杆菌20分钟左右产生一代的分裂速度而言,一分钟的差距好像不足为奇。但是这一分钟的延迟从长远来看却是致命的。如果一个菌群中有50%的细菌存在这一分钟的缺陷,80天之后,存在缺陷的细菌数量将不足1%,而300天之后,这个比例会降到百万分之一以下。它们很快就会不可避免地被繁殖相对较快的同类排斥殆尽。自然选择向来雷厉风行,不讲人情。
如果调节能够避免不必要的浪费,那么它应当无处不在。事实上也的确如此。想象一下,一个包含数百种生化反应的代谢,如同数百条互相连通的管道,而乳糖代谢只是其中之一。营养物质流入管道,而流出的则是生物质。每一条管道都有一个专属的水泵,作为水泵的酶分子会推动原料分子通过管道,细胞能够根据自己的需要调节每一个水泵的工作。如果细菌在土壤里发现了新的食物,比如一个掉落的苹果或一具腐烂的尸体,它们就会打开对应水管里的水泵。一旦营养物质消耗殆尽,水泵就会被关闭。此外,如果环境中某些营养物质的供应增加或减少,细菌还能够将水泵的速度调节到恰当的大小。
β-半乳糖甘酶的基因表达能够被调节因子抑制,而其他基因的调节方式则正好相反:这些基因平时也处于关闭状态,只有在需要的时候才会被激活,即它们的调节因子帮助基因在需要的时候进行转录,而在不需要的时候抑制多聚酶结合。虽然转录水平的调节是所有调节中最重要的,但它并不是唯一的调节方式。细胞还能够调节RNA翻译成蛋白质的速度、蛋白质的活性、蛋白质的寿命等。调节方式的多样性大概最能够用来说明调节本身的重要性:生命会在10多种不同的水平上进行调节。
我们在这里想象一家高档餐厅的厨房,厨房的食品储藏室里整齐地摆放着各种蔬菜、肉类、鱼、食用油、香料以及调味料。这些食材足以用来烹制任何你想吃的菜品,从家常小炒到异国风味,每一种都色香味俱全,厨师长还要求厨房能够24小时进行供应。调节因子在细胞内扮演的角色之一就像这个厨房里的抠门经理,勒令厨师只能按需取用食材,不忍心把钱浪费在哪怕一个额外的马铃薯上。
不过调节因子扮演的角色不只是经理,还同时兼任厨师长,手握决定每天食谱的大权,指导其他人哪里应该加入一量杯的豆子,哪里应该添加两量杯的鸡汤,哪里又需要少许盐,然后用350摄氏度的烤箱烤制30分钟。这里所说的食谱,正是基因组中每一个基因精密的表达方式。基因的正确表达可以使细胞内每一种蛋白质的数量都保持在恰当的水平。
考虑到生命的复杂性,把一条蓝鲸的基因表达和一个蛋奶酥的配方相提并论,多少显得有失公允。任何一种细胞内的蛋白质成分都远比最精致的料理复杂,数千种蛋白质分子的数量和合成时机在细胞内受到精确调控,哪怕技艺最精湛的五星厨师都对这种火候的控制望尘莫及。不仅如此,进化还在孜孜不倦地研究着新的“菜色”,细胞、组织、器官乃至整体的新性状,都是不断变化的、庞杂的调控系统的产物。
生物调控是发育生物学研究的议题,发育生物学是生物学中研究一个细胞如何发育为一个生物整体的分支学科。发育的过程十分神奇。发育生物学试图解释生物体内的细胞为何不仅仅是一坨松散无形的囊泡,而是能在动物体内发育出如心、肝、肺、脑等器官,在植物体内发育出根、茎、叶、花等构成。
每种器官都有高度精专的分工,并含有许多特异的细胞种类。以你的心脏为例,其中的细胞就包括泵血的心肌细胞、将心肌细胞联络在一起的结缔组织细胞,以及像龙舟上给桨手们提供挥桨节奏的鼓手那样,通过电信号控制心脏搏动节律的起搏细胞,这些都是心脏特有的细胞类型。那么这些特异的细胞是如何从同一个受精卵分化而来,又如何在恰当的时间和位置发生分化的呢?一个细胞要如何知道自己应当分化成起搏细胞,而不是一个神经元或者干细胞呢?
答案就是调控,调控指导着所有生物的发育。多细胞生物体内的细胞通过合成特异的蛋白质完成相应的分化。我们体内的每个细胞都包含有人类全部的基因,细胞的区别源于它们选择性表达的基因。肌肉细胞能够表达马达蛋白,这种小小的分子机器是肌肉细胞能够收缩的关键,所以几乎所有种类的肌肉细胞都表达这种蛋白质。人类的眼睛内有一种透明蛋白,能够透光并将光聚焦到感光的视网膜上。软骨细胞能够表达胶原蛋白和弹性蛋白,作为缓冲物以防止关节骨之间过度的摩擦和损耗。
已分化细胞和特异蛋白之间的关联并不简单,虽然不同的分化细胞的确各自表达着独特的蛋白质,但蛋白质并不能代表细胞的种类。实际上,任何蛋白质都会在多种细胞中表达。眼睛内的玻璃体,即位于角膜和视网膜之间的透明胶体,其中的胶原蛋白与软骨细胞合成的无异;肱二头肌肌肉细胞与心肌细胞合成的马达蛋白同样别无二致,类似的例子不胜枚举。决定一个细胞“身份”的不是某一种独特的分子,而是分子指纹(inolecular fingerprint),即一个细胞内所含有的数百种蛋白质的组合方式。所以新的细胞种类就意味着新的分子指纹,也就是调控下的基因表达的新形式。
对细胞分化起关键作用的基因往往在许多不同类型的细胞中都能表达,所以对这些基因的调控往往需要多个开关。在图5-2中这些开关以小的矩形方框表示,每一个矩形的方框都代表一段不同的关键词,每个关键词都有与之结合的调节分子(图中的其他形状)。典型的例子有编码晶状体蛋白的基因,这是眼内晶状体分子指纹中的成员蛋白之一,正是依靠它我们的眼睛才能进行聚焦(我们会在第6章对这个基因展开更多讨论)。
图5-2 一个基因与多个调控分子的对应关系
晶状体蛋白至少有5个调节分子,Pax6就是其中之一,它通过结合在基因附近的区域决定基因表达与否。有的调节因子与DNA结合紧密,所以能够强烈影响基因的表达;而有的则结合疏松,对转录的影响也就相对较弱。调节分子对多聚酶转录基因的干预,就如同内阁议员们向国王进谏施压。有的调节分子倾向于抑制基因表达,有的则倾向于激活;有的对基因表达影响重大,有的则无足轻重,所有调节因子的效应总和决定了基因表达与否。
那么是什么在调控调节因子?很简单:其他调节因子。图5-2中调控基因的所有调节因子本质上都是蛋白质,和其他所有蛋白质一样,它们都由各自的基因编码,而基因则受到调节因子的调控。调节晶体蛋白表达的Pax6不仅在晶状体内,也同样在角膜、胰脏以及发育中的神经系统内表达,它的表达受到多种调节因子的共同调控。那么如何调控这些调节因子呢?当然是再依靠其他调节因子。那么调节因子的调节因子呢?当然是依靠新的调节因子。所有这些调节因子形成了一条花环链,调节分子之间的级联关系如图5-3所示。
一眼看去,图5-3中的级联关系已经足够繁杂了,不过现实中的基因调节远比这复杂得多:调节因子之间的相互调控不仅是线性的,甚至可以是环形的。图5-4示意了5种调节因子基因之间形成的环状调控通路,5种基因依次用小方块和方块里的A到E表示。出于简便考虑,图里没有画出调节因子在DNA上的识别位置,只标出了调节因子之间相互调控的关系,黑色的箭头意味着调节因子能够激活目标基因,而灰色的直线则表示调控因子会抑制目标基因。简而言之,这些基因之间能够相互促进或者抑制。图中的虚线则表示情况更加复杂的关系:每种调节因子还掌控着其他数百个基因的命门,它们都不在这个环里。
图5-3 调节因子级联图
图5-4 环形调控回路
Pax6基因正是这种环形回路里的一员,它的变异会引起严重的后果,也反映出调节环路的威力:人类具有Pax6基因缺陷会导致先天性虹膜缺失,同时伴有晶状体浑浊以及视网膜退化,从而致盲。作用与Pax6类似的基因在许多动物身上都扮演着相同的角色,包括老鼠、鱼类和果蝇,虽然它们的眼睛与人类相比在结构上有着天差地别。果蝇体内的“Pax6”被称为eyeless,顾名思义,没有eyeless基因的果蝇无法发育出眼睛。不过当果蝇体内的eyeless过剩时,结果更惊人。生物学家在果蝇胚胎内原本不会表达eyeless的部位激活了这个基因的表达,结果是果蝇在触角、腿部甚至翅膀上都发育出了眼睛。
图5-4看起来有点像工程师画的布线图。考虑到基因的不寻常性,即便基因之间并没有线条把它们连接起来,这样的比喻也还算合理。类似的布线图是一种记录环路基因型的简洁手段,其中包含编码调节因子的DNA以及调节因子识别与结合的关键词信息。只需要简单一瞥,你就能知道图5-4中的基因A能够激活基因B和C,而D能够抑制C等。在活细胞内,基因之间的相互激活和抑制构成了一部交响乐,每一个基因都相当于一种乐器,它们跟随着相互之间的旋律与节奏演奏,直到整个环路达到平衡——就像复调闭和弦,环路中所有基因的表达都不再变化。
在这个平衡点上,环路内有的基因被关闭,而有的则被激活。举个假想的例子,图5-4中的A和C基因可能在平衡后处于激活状态,而B、D和E则会被关闭。所有基因的开闭状态(例如,“开”“关”“开”“关”“关”)被称为“基因表达谱”(gene expression pattern),由于环路里的基因调控着许多其他基因的表达,所以基因表达谱除了是环路本身的表现型,同时也决定了细胞的分子指纹。基因表达谱是又一种无法被直接感知,只能通过精密设备进行测量的指标。但它又与最明显的表现型有关,即生物躯体的形态。于是,想要新的生物形态首先要有新的基因表达谱。
基因调节环路塑造了千奇百怪的生物形态,从聚集在腐烂水果上的果蝇到遍地丛生的拟南芥,再到斑马鱼——一种身长不到10厘米、全身布满条纹的淡水鱼。这几种生物都非常不起眼,但是有两个特征使它们成了研究发育的理想实验对象:它们身形娇小且繁殖迅速,能够让我们在短时间内研究大量的个体样本。
我们从它们身上学到的一点是,调节环路对身体形态的调节速度非常快,令人难以置信。黑腹果蝇(drosophila melanogaster)的幼虫在果蝇产卵后的15小时之内就会孵化,紧接着在7天之内就会完成化蛹和变态,发育为成年果蝇。一个生命从无到有只需要15个小时,还可以独立捕食、爬行、在世间游荡,这也就难怪成千上万的科学家殚精竭虑想要弄清楚果蝇的基因到底是如何工作的。
果蝇的身体主要有三个组成部分,这三部分又可以再细分为14段体节:头部为单独的一部分,胸部占三段体节,腹部占11段,每一段体节各司其职,负责爬行或是生殖的功能。对于大多数人而言,果蝇既不漂亮也不高贵:这种卑微的虫子根本无法与翅膀华丽的鸟儿,抑或与雄伟的巨型红衫相提并论。不过,14段体节和它们的作用对于果蝇来说,犹如哥特式教堂的飞扶壁和帕提侬神庙的多立克柱式,科学家研究体节得到的启迪堪比在生命科学任何其他领域的所得。直到今天仍然有许多人,从学习生物学的高中生到诺贝尔奖得主,都还在研究果蝇的体节。体节是研究基因调控的理想素材,体节研究中得到的许多原理在其他动物体内同样适用。
果蝇在产卵前会在卵内植入一些短小的遗传物质片段作为化学信号,帮助幼虫发育。这之中就包括一种名为bicoid的基因的RNA转录产物,利用它,果蝇卵能够翻译出一种bicoid蛋白。(没错,研究果蝇的生物学家在取名的时候通常没那么讲究。)bicoid蛋白集中在受精卵的前部和将来会发育为果蝇头部的位置。bicoid蛋白就像一滴坠入水里还来不及扩散的糖浆,它在果蝇受精卵内的浓度在离开前端之后呈现迅速衰减态势。
除了bicoid之外,果蝇妈妈还在受精卵的前端留下了几种其他基因的RNA转录产物,同样的道理,受精卵的后端也有独特的化学信号,在离开后端之后它们的浓度也迅速衰减。果蝇妈妈的工作完成之后,胚胎的每一个部分都会拥有自己独特的调节因子组合,如同条形码一样,独一无二。
当一个精子与卵子相遇,受精卵便会形成并开始分裂。胚胎发育中会根据母亲留下的RNA分子决定合成蛋白的种类。在每一个胚胎子细胞内,蛋白质的合成数量都由母亲预留的RNA决定。而这些胚胎中早期合成的蛋白质正是决定其他基因开闭的调节因子,某个基因的开或关取决于对应调节因子的数量。举个例子,如果一个基因的激活因子只在受精卵的前端十分丰富,如bicoid,那么这个基因只会在受精卵前部被激活表达。
在早期调节因子调控的基因中有一些比较特殊,它们本身也是调节因子,用来激活别的基因,而进一步激活的基因中又有一些是编码调节因子的,以此类推。不仅如此,调节因子之间还会逐渐形成相互调控。最复杂的调控环路中涉及多达15种不同的基因,这个环路里的基因均执行着我上面所说的相互调节,结果是有的基因最终得以表达,而有的则没有,形成了自己独特的基因表达谱。
调控环路中有一种格外特殊的蛋白质,名叫齿状蛋白(engrailed)。经过与别的基因相互作用和影响,齿状蛋白在胚胎里呈现高度规律的间隔表达。果蝇胚胎中有7个区域表达齿状蛋白,另外7个则不表达,两种区域间隔分布,形成了果蝇体节最早的划分依据。接着,齿状蛋白以及别的调节因子继而控制其他基因表达,决定一段体节究竟是发育出腿,还是萌出翅膀,抑或是参与构成腹部。
上面的过程以及更多没有提到的变化都发生在数个小时之内。不过果蝇胚胎受到发育生物学家们的普遍青睐,不仅仅是因为它的发育速度:在果蝇体节完全形成之前,胚胎细胞之间还没有被彻底分隔。换句话说,分子在成长的胚胎里能够自由出入不同的细胞。而对于大多数其他物种而言,胚胎细胞在受精后几乎会立刻与别的细胞分隔,这让细胞间的交流通信变得异常困难。
当然这并不意味着根本不可能。男性的生殖器官阴茎和阴囊就是一个典型的例子。当男性胎儿发育到8周的时候,一小簇睾丸间质细胞(leydigcells)就会在将来发育出性器官的位置附近释放雄性激素。雄性激素中包括睾酮等对塑造性器官至关重要的激素,激素会指导周遭的细胞向阴茎和阴囊分化,并在日后分化出精子细胞。雄性激素从睾丸间质细胞内被分泌出来后会进入细胞之间的空隙,雄性激素的分子结构能够让它随意穿过细胞膜,进入另一个细胞内。
在新细胞内,雄性激素的受体,即一种能够识别雄性激素分子形状的特殊蛋白质,早已等候多时。当两者相遇时,受体分子的形状就会发生改变,形成一把分子锁。蛋白质的形变让它能够识别DNA上的某个关键词,并激活相邻的基因。雄性激素受体能够激活许多不同的基因,其中就包括某些调节因子,它们在雄性器官内维持着数百个基因的激活状态,正是这些基因赋予了男性生殖器官中的细胞独特的分化性质。
从果蝇到人类,胚胎发育的每时每刻,所有组织内都在发生类似的信号交联,涉及的信号分子数以百计。正是在这种超乎常人想象的信号交流过程中,细胞得以确定自己的位置和命运,就像表达bicoid的细胞们“知道”自己位于胚胎的“头等舱”一样。基于同样的原理,细胞在信号指令的操控下分裂、移动、膨胀、收缩并变得扁平,最终完成细胞分化和生物塑形。不管何时,当细胞需要发生分化,生物形态需要进行重塑时,都逃不过细胞对信号分子表达的调整。
如果我们能够弄清从果蝇到人类胚胎发育的调节方式,我们就能预测器官、组织和细胞的形成,以及为何不同的生物在外形上千差万别。如此,真可谓大功一件。然而不幸的是,环路体系的表达谱着实庞杂,即便像图5-4中画出的经过简化的环路依旧十分复杂。如果说A能够激活B,而C却抑制B,B能够激活C,而D则抑制C,那么我们很难一眼看出各个基因最终的表达情况。实际情况是,许多现实中的环路含有的基因数量比图5-4要多得多,数十种调节因子像尼龙绳一样相互交织,繁复程度远远超过我们大脑的处理能力。不过也不是毫无办法,我们还有能够利用数学运算模拟环路内分子关系的计算机,与我们的碳基大脑不同,科学家可以依靠硅基大脑的算法,预测环路内所有基因最终的基因表达谱。
曾经有一名杰出的计算机科学家耗费毕生精力试图完成这项工作,他的名字叫约翰·瑞尼茨(John Reinitz)。20世纪90年代,当我还是耶鲁大学一名研究生的时候见过约翰。他比我年长几岁,大家都称他为怪胎,在那个抽烟并不光彩的年代,他时刻烟不离手。即便是在星期五便装日,他也衣冠楚楚,一丝不苟。他开着一辆古董级的大众甲壳虫,后座上堆满了垃圾食品的包装盒。约翰叛逆、不拘小节,他敢于挑战主流的勇气对他的研究来说简直是无价之宝。
当时有许多科学家在研究果蝇的胚胎,而计算机对于他们的价值仅限于写论文。多数人研究果蝇主要是通过改变DNA与编码的基因,或者是在实验室里控制某种调节因子的表达,然后观察这些改变对于体节发育的影响。这些科学家的实验同样多产:其他的暂且不论,他们在果蝇基因组中找出了数千种与胚胎发育有关的关键基因。但是对于理解整个表达环路中的基因表达谱而言,单个基因在整体中显得微不足道,实验科学家们一次只能针对一个基因的研究手段注定收效甚微。虽然今天科学界已经普遍接受了这项技术,但是在20世纪90年代早期,约翰试图用计算机模拟果蝇的想法根本不被一众科学家看好,甚至遭到了少数人的无视及鄙夷。
约翰的想法有点像建造一台飞行模拟器,后者对于培训空军和商业飞行员来说不可或缺,它不仅可以模拟整套驾驶舱的操作机械,还能够模拟飞行中受到的气流干扰及仪表故障。与之类似,约翰收集了果蝇胚胎早期发育中的各种调节因子,以及它们相互之间调节关系的海量信息,将这些信息代入算法,并在计算机中模拟果蝇发育的过程。就像那些运行效果优良的飞行模拟器一样,约翰的果蝇模拟器也得以顺利运行——这可不是一件容易的事。果蝇模拟软件能够模拟果蝇胚胎的早期发育,而且运算速度惊人。它能够不断重复运算,直到保证没有任何算法遗漏。正如飞行模拟器能够模拟坠机,除了演算正常胚胎的发育,果蝇模拟器还能模拟基因表达调节异常的情况下,不同基因突变如何导致胚胎发育畸形。
我在这里写的这几行字几乎相当于约翰在过去几十年里花费的全部心血,他在建立果蝇模拟器的过程中受尽了同行的冷漠和蔑视。当我抬手准备拍死一只苍蝇的时候,脑海里经常会闪过他默默奋斗的身影。(然后世界上就少了一只苍蝇。)
除了脊梁骨和脊髓,包括鱼类、哺乳类、两栖类、爬行类和鸟类在内的6万多种脊椎动物在形态上可谓千姿百态。不过,由于所有的脊椎动物都可以追溯到生活在5亿多年前的同一个祖先,所以我们可以说现代脊椎动物的形态多样性都建立在类似的内部结构之上。比如偶鳍,通常一对在躯干前方,一对在躯干后方,用以帮助鱼类在水中推动身体前进并控制前进的方向,陆生动物用于爬行奔跳的四肢正是起源于偶鳍。而某些陆生动物的前肢后来又进化为鸟类的翅膀,比如恐龙。
四肢是陆生脊椎动物进化的关键所在。无论前后肢,都是由结构类似的三个部分构成的,上臂和大腿,前臂和小腿,以及手和脚。人类的手臂与腿部的主要骨骼与马、狗、鹰、蝙蝠、猪、鳄鱼以及其他很多动物的前后肢骨骼基本相同。在进化中,仅仅改变骨骼的尺寸,很多特殊的功能就可以成为可能,例如,相对修长的四肢骨是马快速奔跑的秘诀,而相对较轻的翅骨则有利于鸟类的飞行。
四肢的存在与某个在许多生物体内负责塑造形态的调节因子家族有关,物种跨度从水母到人类。虽然这些调节因子是生物躯体正常发育所必需的,但是编码这些调节因子的基因,即homeobox或Hox,它们的名字是根据它们在同源异形现象(homeosis)中的作用而定的。同源异形现象指这些基因变异后造成的生物畸形,例如畸变的果蝇在头部原本是触角的位置长出了无用的腿。通常来说,改变生物正常的基因表达往往会引起严重的后果。
homeobox是一种含有60个氨基酸的蛋白质,它能够与DNA结合从而帮助Hox调节因子调控基因的表达。无论是在果蝇还是人类体内,这些调节因子都主宰着其他数百种与细胞、组织以及器官形态有关的基因活动。除了单个基因之外,Hox调节因子还在调控另一种东西,那就是调控环路。如果你还记得图5-4的话,Hox家族的调节因子参与的调控环路要比图5-4里的例子复杂得多,因为动物细胞中的调控环路通常包含40种乃至更多种调节基因。类似的环路往往是决定动物身体形态的关键,其中也包括人类。人类脊柱中的33块脊椎骨以及它们独特的形态,即脊椎颈部的前两块骨头构成一个灵活的关节,12块胸椎与肋骨结合处的关节槽等,就是典型的例子。
胎儿在子宫内发育的时候,Hox基因家族就已经在调控颈椎、胸椎和腰椎的基因表达了。每一个部位的Hox家族各个基因的开与关就构成了这个部位的基因表达代码(gene expression code),不同部位的表达代码各不相同,某个表达代码代表颈椎,另一个则代表胸椎,诸如此类。
Hox基因不仅负责塑造人类的身体,它也在其他脊椎动物,例如蟒蛇或任何种类的蛇体内参与形态构建。蛇的独特形态是大自然无心插下的又一根柳条,使得这种生物能够在地面蠕动、在地底穿梭、在水里游弋。某些种类的蛇拥有超过300块脊椎骨,它们中大多数的躯体结构与我们的12根胸椎无异,也连接着肋骨。Hox基因家族便是蛇与其他脊椎动物产生形体差别的原因:在大多数脊椎动物体内,Hox家族只在胚胎的一小块区域内激活胸椎基因的表达,但是当蛇的进化之路在大约1亿年前与蜥蜴分开之后,这一小块区域就像拉开的橡皮筋一样扩展开去。指导胸椎形成的Hox表达出现在了身体中轴上的大部分区域,使得这些区域的数百个脊椎发育为胸椎,继而造就了蛇独特的身材。
Hox基因家族不仅在动物中轴骨的形成中起着决定作用——在脊椎动物里,这里所说的中轴骨基本相当于脊椎骨,它们还参与了另一个脊椎动物的结构形成:鱼鳍。鱼鳍并不是一成不变的。在过去的数百万年里,进化通过Hox基因家族的变异、优化和分化,逐渐把鱼鳍变成了四肢。不管生物是在地上奔跑还是在天空翱翔,四肢骨的基因表达都可以被划分为相似的三部分,第一部分的Hox基因控制上臂的形成,第二部分控制前臂的形成,而第三部分则控制手掌的形成。
某些基因的变异在动物体内导致了可怕的先天缺陷,上述的结论正是来自对这些变异缺陷的研究。比如发育的四肢中如果缺乏Hoxa11和Hoxd11的表达,那么结果将导致胚胎没有前臂,手掌从手肘的位置萌发出来。同样的道理,如果Hoxa13和Hoxd13表达缺失,那么胚胎就可能无法萌发手指或手掌。还有一些Hox基因表达的缺失则会导致前臂和手掌同时消失,仅有上臂能够正常发育。
当然,正常情况下Hox家族的基因都还是恪尽职守的。此外,它们所参与控制的结构数量惊人,从盆腔到颅骨,都离不开Hox家族的身影。Hox基因家庭同样存在于虾、水母、蠕虫甚至是果蝇体内,而且重要程度几乎与控制体节形成的调节因子家族相当。实际上,两者的工作是前后衔接的。当体节家族的成员敲定体节的数量之后,Hox家族继而决定每个体节的功能,如这个体节负责腿,那个体节负责翅膀等。体节和Hox基因家族还只是果蝇和其他动物众多同类型分子家族中的两个,从数亿年前动物出现伊始,这些家族就已经参与到对形态的控制中了。
Hox基因家族对于动物新形态的诞生至关重要,例如从鱼鳍到四肢的改变;还有新的中轴骨,比如蛇的身体。关于这些新的形态究竟是如何起源的,也许已经随着生命漫长的历史,永远故去在风里了,但是仍然有一条原则亘古未变:新形态的起源必然伴随调节方式的改变。
不仅是形态,这个原则在所有新性状的起源里都应该适用。
这里我们可以想象有一条纤细的蜥蜴,它在茂盛的草丛里蜿蜒游走,寻找下一顿美餐。突然它呆住了,因为它发现面前出现了一双巨大的眼睛正死死地盯着它。它意识到自己可能马上就会被眼前的怪物撕成碎片。但在突然之间,面前的眼睛像海市蜃楼一样消失了,只见一对扇动的翅膀乘风而去。原来根本不是什么捕食者,而是一只美丽的蝴蝶和它翅膀上的两个巨大的色斑而已。
蝴蝶的眼状斑点是它的保命伎俩,由一种非同寻常的调节蛋白distalless控制。作为调节环路中的一员,除了参与果蝇的腿、翅膀和触角的形成之外,distalless还给蝴蝶的翅膀画上了奇异的眼斑。我们之所以能够确定distalless和独特的眼状斑点之间的关系,是因为distalless在蝴蝶幼虫发育中合成的位置正好与将来眼斑形成的部位吻合。有的蝴蝶的眼斑十分巨大,有的则相对较小,有的只有一个眼斑,而有的则有数个。但不管是哪一种,发育中的蝴蝶都在眼斑的位置上持续表达着distalless。distalless合成与眼斑位置的吻合不是巧合,实际上它的确是眼斑形成的原因:如果把合成distalless的细胞移植到翅膀上的其他位置,最后眼斑也会出现在同样的位置上。
蝴蝶的身体就像一座大教堂,从体节的中殿到眼斑的滴水嘴兽,都是基因调节一手造就的。基因调节是优秀的建筑大师,不管图纸有多复杂都不成问题,其中也包括植物以及它们的根、茎、花、叶。第一株开花植物出现在大约两亿年前,它们的叶子边缘齐整,叶面平滑连续。随着时间的推移,单叶逐渐进化成深裂叶,一张叶片分裂为许多小的叶片(如图5-5)。
图5-5 叶形
单叶进化为深裂叶给植物带来了许多优势。深裂叶的表面积比单叶要大,这使得叶片能够吸收更多的二氧化碳进行光合作用,从而促进植物以更快的速度生长。此外,更大的散热面积能够使叶片在炎热的环境里不至于过热,而过高的温度往往会抑制光合作用的速度甚至损伤叶片。如果深裂叶这么好用,我们猜测它可能在进化上起源过不止一次。事实确实如此,仅仅在开花植物的历史上,深裂叶就有过至少20次相互独立的起源。
每一次深裂叶的起源都伴随着基因调节的变化。植物在萌发的初期,只有尖部一小块组织内的细胞能够分裂,促进幼苗生长,推动植物向上穿破土壤。这块分裂组织也是一株植物所有的叶子最初起源的地方。在形成肉眼可见的幼叶之前,一小簇细胞,或者叫叶原基,就已经从其他分裂的细胞中分化出来,专门用以形成叶片。叶原基里的细胞都会表达一种名为KNOX的调节蛋白。
牛津大学的安杰拉·海(Angela Hay)和米托斯·茜提斯(Miltos Tsiantis)曾经用一种十分不起眼的草本植物——碎米荠(hairy bittercress)进行实验,通过控制植物体内KNOX蛋白的合成,他们才发现了这种蛋白质在叶片形成中扮演的重要角色。随着KNOX的合成量降低,碎米荠深裂叶的缺刻数量会逐渐减少直至变成单叶。而如果调高KNOX的合成,深裂叶的缺刻就会相应增加。不仅如此,他们还发现KNOX不仅在碎米荠中,还在许多其他种类的植物体内控制着深裂叶的形成。
上面的那些例子,以及无数我们未提到的事实都反映了基因调节对于生物进化的重要性。无论是世界上各个实验室的研究记录本,还是各种学术刊物,都充斥着有关基因调节分子的研究,比如植物中的KNOX、蝴蝶体内的distalless以及果蝇的齿状蛋白等。人类的基因组编码了超过2 000种不同的调节因子,它们构成了数十个相对独立的调控环路。过去半个世纪的研究已经让我们窥见了基因调控在塑造生物形态中的重要性,它有助于我们理解许多新性状进化的过程,以及性状背后的基因表达代码。
但不论现实中的例子有多丰富,也不过只是告诉了我们蜥蜴的四肢和鱼的鳍在发育中与Hox基因家族有关而已,即不同的调节因子表达谱导致了不同的基因表达结果。即使我们找到了新性状与新调控环路之间的关联,也还是无法解释进化是如何找到这些最合适的基因表达的。(调控环路的种类越多,要弄清这些环路的起源就越困难。)另外,由于调控环路在进化过程中时刻积累着微小的变化,如何保持已有的优良基因表达谱就成了一个充满矛盾性的难题。仅有调控促进进化的例子,还是无法告诉我们这个过程到底是如何实现的。
你可能会觉得这个问题很眼熟,其实它的答案也不陌生:我们需要研究尽可能多的调控环路,最好是整个图书馆里的调控基因型和它们的表现型。调节因子图书馆里收录的是编码调节因子的DNA,以及它们识别的DNA关键词。但如果我们直接以这种方式记录所有的馆藏,整个过程将无比烦琐和冗长,就像你要用每一个分子的空间定位来描述一栋房子一样。其实你大可以用一张房子的图纸省下很多力气,就像图5-4中的示意图那样。
整个调节图书馆内包含了所有可能的调控通路,换句话说,就是包含了所有可能的图纸。你可能会觉得归档这些内容很困难,但实际上极其简单。调控环路里的任何一个调节因子,比如说A,如果我们要研究它与另一个调节因子B的关系,那么它的影响不过就是3种可能中的一种:A能够激活B、抑制B,或者根本对B没有影响。对于任何一对调节因子而言都是同样的道理,比如图5-4中的调节因子A和C,或者D和E,调节因子能够激活、抑制另一个调节因子,或者毫无作用。
对于所有调节因子来说都仅有3种可能性。这个基本的原则能够帮助我们更好地理解图5-4中的5个基因的调控环路,接下去要做的就是数清这5个基因之间有多少种配对方式。图5-4中的环路内有52种配对方式,对于每一对基因而言都有3种不同的可能效应。第一对基因有3种可能的效应,第二对、第三对也同理,以此类推,直到第25对。所以5个基因的调控环路的所有可能结果一共有325种,换句话说,由5个基因组成的调控环路有超过8 000亿种可能。
对于5个基因来说,8 000亿这个数字显得着实惊人,尤其是许多现实的调控环路中包含的基因数量远远不止5个。以脊椎动物的Hox基因家族为例,它们组成的调控环路里有至少40个基因。要计算40个基因的调控环路有多少种可能性,我们可以采用同样的方法:首先计算基因的配对数量,为402(1 600)种,然后计算31 600。如此大的量级对于我们而言并不陌生,这个数值超过10700,如果把它印刷出来,那么可以铺满这整页纸。
但请不要忘记的是,虽然这个数字已经超乎常理的大了,但是它和环路数量的实际值相比依旧有差距。因为到目前为止,我们一直假定每个调节因子在调控环路里的作用是同等重要的,一个调节因子要么将目标基因激活,要么将其关闭。事实上,有的调节因子的作用相对较弱,有的则相对较强,作用强弱的差别使得情况大大复杂化了:每对基因面对的可能结果不再是3种,而是5种:没有作用、弱激活、强激活、弱抑制或强抑制。于是,我们计算的幂底数就从3变成了5。这还没有完。
如果我们有办法进一步区分基因激活或抑制的强弱程度,那么可能的调控环路数量还会继续增加。幸运的是,我所在实验室的研究表明,对于激活或者抑制程度的细分除了数量之外,并不会改变整个图书馆里的组织原则。这是个好消息,说明数量根本没有那么重要,因为光是以3作为幂底数,调控环路的数量就已经是超宇宙级别了,再多一些似乎也无妨。
基因调控环路图书馆和它收录的基因型馆藏与我们之前探讨过的代谢图书馆和蛋白质图书馆有诸多相似之处。当基因发生变异之后,我们以添加或是去掉基因之间的线条来表示两者调节关系上的改变。但是请记住,这些线条不是真实存在的,仅仅代表基因之间存在调节关系,而这种关系受到变异的影响。每当你改变其中一对基因的调节关系,你就得到了一个原环路的相邻环路。
图5-6中给出了一个例子,由于变异,与左侧的环路相比,右侧环路中的B基因不再调节D基因的表达(这种调节在左侧由那个粗箭头表示)。每个调控环路都有许多相邻环路,如果是40个基因的调控环路,每种环路的相邻环路将达到3 000多个。如果我们把所有的调控通路安置在一个超立方体上,每个顶点对应一个环路,再故伎重演,那么寻找相邻环路的过程相当于沿着超立方体的边从一个顶点移动到下一个顶点。由于超立方体存在于多维空间,所以从每一个顶点出发的边有许多条,与40个基因对应的超立方体存在于1 600维空间。这个超立方体的顶点数量远远不止1 600个,而是达到了10700个,这也是图书馆中所有包含40个基因的调控环路的馆藏数量。
图5-6 调节环路图书馆中的相邻环路
和我们前面介绍过的其他两座图书馆一样,超立方体上的每一个环路都有各自的“社区”,里面包含所有与之在图书馆里相邻的馆藏,也就是仅相差一对或少数几对的调控环路。微小的基因改变,哪怕只是一个DNA分子的变异,就有可能建立或是摧毁一对基因之间已有的作用,进化只要抬脚走上没几步,就能从一个书架走到下一个书架并浏览上面的文本。循着相邻基因一直往前,你就会逐渐深入到图书馆内——这样的旅程你已经不陌生了。而在这里,距离的概念变成了两个环路之间连线的差别。越是临近的环路之间差距越小,而相距甚远的环路之间则几乎没有相同的连线,分别位于图书馆中截然相反的两个方向。
同样的道理,图书馆里的多数环路基因型是随机的,没有任何意义。但也有一些编码了有意义的单词或句子,只是整体而言依旧词不达意、不知所云,甚至会宣扬恶俗言论,比如变异的Hox基因最终将导致没有手掌的残疾手臂。我们这里所说的文字和语言,同样是指基因调节和表达的化学语言,只有细胞和组织真正理解它们,并最终将它们翻译成脊椎骨、叶子或手掌等血肉的语言。而新性状的诞生过程我们在单叶进化为深裂叶中已经多少介绍过了。
我们在前面已经探讨了调控环路通过操纵基因表达控制性状的原理。从一套预先存在的调节因子开始,比如果蝇在受精卵内留下的分子信号,后续的调节因子逐渐形成调控环路,并改变最初的基因表达模式。基因在发育过程中开开闭闭,直到抵达某个平衡点,然后就犹如马戏团里的杂技演员们,保持巍然不动。对于马戏团里表演叠罗汉的杂技演员们来说,他们的平衡建立在相互牵制的基础上,这一处的推力在那边相当于拉力,而打破这种平衡状态唯一的办法则是瓦解其中的某个个体。
通过多年的研究,我们对于这种平衡的理解已经足够我们演算平衡点了,就像约翰·瑞尼茨的果蝇模拟器。我们已经能够同时考量的环路数目不是一个或几个,而是数百万个,这相当于同时演算整个超宇宙级别的图书馆。
我们从一开始就知道环路图书馆里的馆藏数量超出任何人的想象,哪怕是环路的表达谱数量也不是闹着玩的。如果在一个含有40个基因的环路中,每一个基因只有激活或关闭两种可能,那么40个基因就有240种可能表现型,总值超过一万亿。而现实中一个基因的状态并不是非白即黑的,它可以微弱、中等、强烈或是非常强烈地进行表达。不仅如此,生物形态的造就往往需要多个不同的调控环路协同合作,这也大大增加了表达谱的可能数量。与所有这些表达谱的数量相比,我们体内区区数百种不同的细胞和组织几乎不值一提。如果我们把体内所有的细胞都铺陈出来,让每一个细胞对应基因表达谱中的一种,那么最终将无法容下所有的表达模式。
进化用我们熟悉的随机游走方式探索着调控环路的图书馆,生物种群的形态重塑来自偶然的DNA复制错误,这些错误的复制一般发生在亲本将遗传物质传递给后代的时候。微小的突变通常会导致两种可能的结果,即改变调节因子的形态并阻止它们与DNA结合,或者直接改变DNA上调节因子可识别的“关键词”——这种改变会阻碍正常的调节因子识别对应的基因,抑制基因表达,同时也有可能令DNA被新的调节因子识别。
上述的第一种结果往往会造成灾难性的后果,因为一种调节因子通常可以作用于许多种不同的基因。如果调节因子失去识别DNA的能力,相当于把一份食谱里的原料混淆一气,最后做出的料理可想而知,这会导致生物体的严重畸形,甚至胚胎在出生前就会夭折。而第二种结果则更像是食谱里的某个印刷错误,往往只涉及某个基因的表达以及相应的蛋白质数量——它只不过是数千种蛋白质中的一种而已,这使它导致严重后果的可能性变得很小。有人可能会想,生物体对第二种变化的容忍度要更高,因此也更容易在进化的时间跨度上稳定地积累下来。如果当真如此,这些积累的微小变化就能够逐步改变环路里的调控模式。
如果把在过去数百万年中独立进行进化的调控通路拿来比较的话,比如数千种不同的果蝇体内的某几个调控环路,我们就会发现,生物体耐受性最好的变化发生在环路内的基因之间的相互作用中,而不是基因本身。进化的改变总是从某一对基因之间的作用着手,因为直接对基因下手容易造成严重的后果。此外,基因对之间作用的微小影响的确会积累并逐渐改变调控环路,而这个过程十分漫长。改变缓慢的原因在于调节因子的DNA关键词通常只有5个碱基对的长度,且与下游基因有着数千个碱基对的距离。如果仅凭概率,那么随机突变产生新关键词并由此将两个基因联系在一起的可能性要更大一些。
如果调节环路图书馆中的10700件馆藏里只有一个表达谱与Hox家族吻合,那么它就如同一根掉进宇宙的绣花针,生物进化大可以早早放弃挣扎。我在20世纪90年代就疑惑过,为何进化最终还是战胜这渺茫的概率找到了Hox家族,不过我并没有把这个问题太当回事,当时的我正为别的研究项目忙得焦头烂额。直到2004年,当我在靠近法国巴黎的高等科学研究所进修休假[17]时,才开始认真考虑这个问题。
高等科学研究所坐落在一个到处是参天古树的田园乡间,那里有着精心修剪的灌木、争相怒放的花朵,还有在思考问题时能够信步的幽静小道,简直是对那些受尽经费申请、社交应酬以及社区活动纷扰的生物学家来说最好的避难所。常驻在研究所内的几个为数不多的科学家都是非同凡响的优秀学者,他们当中有数名菲尔兹奖的获得者(菲尔兹奖是公认的数学领域的诺贝尔奖)。
研究所主要的研究领域是数学和物理学,但所内的首席科学家们早就注意到了分子生物领域长期以来的停滞不前,他们预见到当前盲人摸象般的研究方式需要一种整体水平的学科进行整合,而这种洞见的产物就是一门分支学科:系统生物学(systems biology)。这个新近出现的研究领域把实验数据和数学、计算机技术结合起来,试图解释分子水平的活动如何作用于生物整体,换句话说,就是微观分子如何构成了宏观生物体。数学家和物理学家手握许多解决这种问题的理论手段,所以研究所邀请了像我这样的生物学家造访,想要看看不同领域的科学家能否联手合作。
我很庆幸当初接受了这份邀请,因为正是在巴黎,我遇见了奥利弗·马丁(Olivier Martin)。
奥利弗是一名享有国际声誉的统计物理学教授,任职于巴黎市郊的奥赛大学(University of Orsay)。像奥利弗这样的统计物理学家,很擅长解决海量微观粒子的宏观现象,比如高压密封罐里的丙烷气体是如何在宏观上产生压力的。对类似压力现象的把控非常重要,谁都不会愿意看到储气罐爆炸,但想要实现也并不容易,因为气体分子和储气罐内壁每时每刻都在发生万亿次的碰撞。统计物理学家乐于把数以万亿计的微观分子看作一个整体,因为单独考量每个个体分子几乎是不可能的,所以他们发明了一套用于研究类似体系的统计方式,算法中包含了复杂的统计学手段。不过我们这里所说的统计分析除了名字之外,与美国大选中民调专家口中所谓的统计分析没有任何关系。
奥利弗也有自己的烦恼。今天的统计物理学就像一家被饿汉们席卷之后的自助餐厅:大多数主要的问题基本都已经被解决了,剩下的都是残羹冷炙,剩下的问题不是太艰涩就是太微不足道,这样的情况从19世纪詹姆斯·克拉克·麦克斯韦(James Clerk Maxwell)和路德维希·玻尔兹曼(Ludwig Boltzmann)用统计学开创热力学以来就没有发生过太大的改变。和他所在领域里的众多其他科学家一样,奥利弗非常渴望突破物理学的局限。他的烦恼在于不知道如何在系统生物学领域找到一个难度合适的新问题,让他所掌握的统计物理学技能找到用武之地。
而我却有一座馆藏数量达到10700件的图书馆要照看。乖乖,我就是奥利弗的贵人啊!
奥利弗·马丁和我开始合作之后没多久,我就对他感激不尽。他作为科学家的直觉和学术素是为我们探索图书馆最好的保障。不过他可不仅仅是一位旅途中的好伙伴,更是一位亲切慷慨的师长,不时耐心地提点我们,用他掌握的专业技能帮我们摆脱眼前的困境。
我们研究开始的第一步是为了解决一个问题,而这个问题你已经非常熟悉了:某种含义的文本在调控环路图书馆里是不是唯一的?为了找出答案,我们从图书馆里的某个环路开始,模拟和计算这个环路的表达结果。然后我们改变其中一对基因的作用关系,查看这个变异能否改变表现型,接着再恢复到最初的环路,改变第二对基因,依次类推,直到我们检验完所有的相邻环路并得到它们的表现型。为了排除某个调控环路的偶然性,我们选择了许多不同的环路作为起点进行上述的检索,这些环路包含了不同的基因数量、不同的相互作用基因对、不同的基因相互作用以及不同的表现型。
最终,我们得到的结论是一致的。每个调控环路所处的社区里往往包含数十个到数百个表现型相同的相邻环路。也就是说,即使发生基因突变,单个基因对作用关系的改变也不一定会引起调控环路表现型的改变。基因调控环路不像马戏团里杂技演员表演的叠罗汉,不是其中一个个体“差之毫厘”,整体就会“失之千里”。调控环路的基因型之所以能够耐受这样的突变,是由于并非每一对基因间的关系都对环路的功能有重要贡献。
从一个环路出发的第一步我们就已经得到了一个重要的结论:没有哪种性状,不管是果蝇的体节、植物的深裂叶还是脊椎动物的脊柱,都是由独一无二的调控环路塑造的。基因对关系不同的调控环路同样能够产生相同的性状。不过我们不知道这些表现型相同的环路到底有多少,在超过40个基因的调控环路里筛查所有环路的计算量是我们力所不及的。哪怕是规模小得多的环路,计算量也非同小可:10个基因的调控环路有超过1040种可能性,而20个基因的环路则有10160种。实现同一个性状的基因型远远不止一个。
接下来,为了评估同一表现型的不同基因型在图书馆里的相对距离,我们再一次借助探索代谢图书馆和蛋白质图书馆时用过的随机游走。选择一个起点,模拟环路的表现型,而后改变某一对基因的作用,即添加或者抹掉一个基因对另一个基因的作用,以此移动到相邻的调控环路上,在保证表现型不变的情况下,继续重复上述步骤,直到无法通过改变任何单个基因对维持表现型稳定。
不出所料,我们又能凭借这种方式横穿几乎整个图书馆。基因对差异超过90%的两个调控环路依旧能够产生相同的表现型。如果用示意图标记两个环路里的基因联系,你可能永远想不到两者是如何经过一步一步微小的变化而成为对方的。但它们的确指向了某个问题的答案:如何产生某种特定的蛋白质指导细胞特定的分化。
为了确保结果具有代表性,包括我们模拟的表现型,我们尝试了以各种不同的环路作为起点,不同的环路基因数量、不同的基因间关系数量、不同的作用关系以及不同的基因表现型,而这些对结论都没有影响。某些环路虽然差异巨大,但是表现型却相同,最小的差异只有“区区”75%而已。但是“如此小”的差异依旧很难让人联想到它们之间居然还存在着联系。
进化还告诉我们,所有图书馆中表现型相同的调控环路是相互联系的。我们可以以它们中的任意一个作为起点,通过一次改变一个基因对并保证性状相同的方式,检索到表现型相同的任何其他环路。和在代谢图书馆以及蛋白质图书馆里一样,我们在环路图书馆里又找到了一种从一点走到几乎任意一点的方式,而不至于迷失和身陷在无意义的环路泥潭里。
于是,调控环路图书馆里所有表现型相同的调控环路也形成了一张巨大的网络,类似的基因型网络我们已经在代谢图书馆和蛋白质图书馆里接触过了。调控环路图书馆里充斥着这样的网络,每一个网络里都包含了数不清的环路,零散分布在图书馆各个角落。同一张网络里的每个调控环路都有相同的作用:指导特定的基因表达谱,帮助特定的细胞、组织或器官分化。一张网络中只有包含足够数量的调控环路,不起眼的深裂叶新性状才有可能在进化史上不断重复上演。
如果没有计算机的帮助,通过对数百万个环路的模拟来理解环路图书馆几乎是不可能的,这意味着数百名实验科学家必须要花费数十年,在数百万种果蝇身上完成实验,才能理解一种调节果蝇体节分化的基因环路。但是,的确有一些胆识过人的科学家在某些更低等的物种身上进行这种研究工作,他们的研究对象是细菌和真菌。巴塞罗那科学家马克·艾莎兰(Mark Isalan)就是其中之一,他在大肠杆菌的调节因子基因间构建新的联系,创造了数百种大肠杆菌环路的相邻调控环路。和我们的演算结果一样,他发现调控环路对于内部基因的关系变化具有相当的耐受性。他在大肠杆菌身上构建的改变中有95%没有引起任何功能性变化。
还有科学家比较了多种啤酒酵母体内的调控环路,想知道它们之间的差异究竟能有多大。这种调节环路的其中一个作用是激活消化乳糖的乳糖酶基因。你可能会想,类似的调控环路应当具有某些共同特征,只有找到发现和运用这种特征的真菌才能拥有相应的代谢能力,并把这种能力稳定地遗传给后代。而事实并非如此。以两种进化道路在数百万年前就各自独立的真菌为例,不仅它们的调控环路完全不同,甚至于参与环路的调节因子都不一样。两种调控环路不分高低,如若不然,它们也无法同时保留至今。自然界以两种不同但是同样有效的方式解决了同一个问题。不仅如此,用于功能相同或不同的调控环路之间,也被一步步微小的变异联系在了一起。
核糖体能够将RNA翻译为蛋白质,编码这种分子机器的基因向我们诉说了同样的故事。细胞在高速合成蛋白质的过程中,必须精确控制不同蛋白质间的数量平衡,不然就可能会像过量合成无用β-半乳糖甘酶的大肠杆菌那样破裂死亡。维持这种精妙的平衡似乎很难,很容易让人误以为只有某种最佳的解决方式才能实现。但是实际上,有两种不同的真菌分别以两种完全不同的调控方式实现了这种平衡。
类似的例子向我们展示了生物对调控环路图书馆的深入探索。但是物以稀为贵,在寻找新颖和高效的表达谱的过程中,生命面临着它们在探索代谢图书馆和蛋白质图书馆时就曾遇到过的同样的难题:环路图书馆里有数万亿种不同的调节环路,但与某个环路直接相邻的社区中却最多只有几千种环路,以这种方式寻找新的基因型效率着实低下。
为了获得尽可能多的新性状,调控环路的进化必须设法跨出所在的社区。这种探索图书馆的方式只有在不同的社区间存在巨大差异的情况下才能收益最大化。为了验证事实是否如此,我们让计算机从一张基因型网络中随机挑选两个调控环路,姑且称之为A和B,它们的表现型相同,但是环路结构天差地别。接着,我们再找出它们各自所有的相邻环路,并分别演算它们的基因编码。我们发现,在A环路与B环路所在的社区中,大多数相邻环路所控制的基因表达谱都不相同,更不要提A环路和B环路本身在基因数量和基因关联上的巨大差异。不同社区中的环路往往表现型也不同。
于是我们的故事又回到了熟悉的套路上。环路图书馆的布局与代谢图书馆和蛋白质图书馆类似。我们把指导相同基因表达谱的调控环路安置到一张巨大的基因型网络里,对于在这张网络里漫无目的游荡的读者而言,他们只能象征性地在“换汤不换药”的馆藏里寻找新书。真正推动生物进化的动力恰恰是无头苍蝇一般的随机突变,调控环路在稳定积累的微小变异中逐渐改变:虽然某些突变葬送了整个调控环路,但依然有一些突变在保留环路功能的基础上把生物推向了不同的基因型社区,获得了新的基因表达谱,而总有一个表达谱会为下一步生物形态的重塑埋下伏笔。我们再次看到,基因型网络中多样的基因社区成为新性状出现的关键。
不同图书馆之间的这些共同点让人捉摸不透。为什么代谢、蛋白质和调控环路图书馆中的新性状有着相似的起源方式?为什么不同的图书馆却有着十分类似的分类体系?这些问题的答案是一只看不见的手,它早在生命出现之前就在引导着世界万物的进程。这只手是自组织,而生命的自组织作用显得尤为奇特,接下来我们就回到这种作用上。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。