每一部书都用一种特定的语言写成,基因组也不例外。基因的语言是种简单的编码,它包含的字符是四种核苷酸分子,这些核苷酸分子就是DNA分子珠链上的珍珠(参见第42页)。每个核苷酸分子包含一个所谓的碱基,信息就编码在碱基当中。DNA中有四种碱基:腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶(分别记作A、C、G、T)。DNA是核苷酸单元组成的线状聚合物,所以编码的信息就可以表示成四种字母组成的线状字符串。字符串可能会包含如下的一段:
GTGGATTGACATGATAGAAGCACTCTACTATATTC
只包含四种字母的字母表看似非常局限,不适于书写复杂的信息。但如果我们将这个序列看作一种密码,而不是严格地看作一种字母表,那么你想要多复杂它都能做得到。比如,我们可以将每个罗马字母表示成若干碱基的序列:GTG表示“a”,GAT表示“b”,等等等等。长度为三的四字符序列一共有64种,多于整个字母表的字母数量。使用这样的密码,我们就可以用AGCT的字符序列来书写《圣经》。
《圣经》里的信息对细胞来说没什么用,细胞需要的是能够用来制造蛋白质的信息。蛋白质长链如何折叠是由它的氨基酸序列所决定的(参见第41页),因此氨基酸序列就唯一地规定了制造蛋白质所需的“信息”。DNA编制这种信息所用的密码正如我们前面所提示的:三个碱基一组代表一种氨基酸。这就是遗传密码。注
人们至今尚未完全理解一个特定的蛋白质序列会如何折叠它的链。也就是说,我们还不能够仅凭基因的序列就推断基因的功能(虽然我们有时可以大致猜到)。人类基因组的第一幅草图里面还充满着目的不明的基因。
不过细胞中信息流动的原理我们完全理清了。DNA是关于蛋白质信息的手册。我们可以认为每个染色体都是独立的一章,每个基因则是这一章中的一个单词(它们可是非常长的单词!),基因中的每个碱基三元组是单词中的一个字母。而蛋白质就是单词翻译出的另一种语言,新语言的每个字母是一个氨基酸。一般而言,只有当基因语言翻译出来以后我们才能理解它的含义。
DNA是一种双链的聚合物:两条链彼此扭曲盘旋,形成双螺旋。每条链都是一个核苷酸长串,信息就编码在里面。但两条链并非全同。这条链上的碱基可以和那条链上的碱基之间形成氢键(参见第41页),两条链就像拉链一样通过氢键相互嵌合。虽然所有的碱基都能形成氢键,但它们有特定的结合选择,A和T相结合,G和C相结合。所以DNA双螺旋包含的是互补的序列:每当A出现在这条链上,T就出现在那条链上,依此类推。这就意味着每个基因都写成了两个版本,以镜像的语言彼此呼应。
碱基这种两两成对的特性是它们的形状所决定的。碱基A和碱基G是相似的分子,C和T也是相似的分子。于是A-T组合体与C-G组合体的形状和大小大致相同。碱基对在两条螺旋链的内侧连接,像螺旋楼梯的台阶。只有台阶的尺寸都一致,两条链才能平顺地盘旋下去。若A与G结合就会鼓出一块,发生扭曲变形,破坏两条链的结合。同样,若C与T结合就会陷下去一块。另外,台阶中氢键的位置决定了A-C和G-T的组合也是不成立的。因此,其实是搭档间吻合的互补性造就了碱基两两成对的偏好。
生物信息流动的一个关键要点是:数据的传输通过分子识别过程进行,确保信息的每一部分都得到正确的解读。
当细胞分裂时,DNA会进行复制,也就是基因组得到复制。因为两条链完全互补,所以它们都可以作为模板来组装新链。如果A总是优先与T配对,且依此类推,一条“赤裸的”单链就能引导游离的单个核苷酸按正确的顺序连成一线,形成一条互补链。
为了扮好模板的角色,双链首先会在特殊的酶的作用下拆成两条单链。然后沿着暴露的单链,互补链就被组装起来;称作DNA聚合酶的酶就催化了新核苷酸的加入。于是两组新的双螺旋都各含原先双螺旋中的一条链。
尽管酶能够帮助这一过程进行,但复制过程所必要的信息都已写入DNA模板当中了。1980年代初,加利福尼亚州索尔克研究所的莱斯利·奥格尔和同事们展示了在没有酶辅助的条件下,单体核苷酸也能够基于互补核苷酸的模板组装成聚合物。例如,一段八个C组成的RNA核苷酸序列,可以作为模板组装起八个G的核苷酸序列。不过奥格尔也不得不在其中做一点手脚,用的G核苷酸是通过加入活性化学基团“激化”过的,于是帮助它们连接起来。
这种模板辅助的聚合本身并不是复制:新链与模板是互补的,而不是全同的。第一例真正的人工分子复制是在1986年由德国化学家君特·冯·凯德罗夫斯基报告的。他使用同样的模板组装过程,但选择的是自补的模板,即自己与自己形成互补。他的模板是个含六核苷酸的DNA分子,序列为CCGCGG。因为双螺旋两条链的头尾方向关系是头对尾、尾对头,两者逆向对接,所以模板的互补序列与自身完全相同。君特·冯·凯德罗夫斯基从两种三核苷酸的片段出发,组装成模板的互补链,其中同样需要活化帮助它们连接起来(如图38)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。