图1-10 人类基因的细胞核和线粒体成分
人类基因组包含3×109个碱基对,有3万~3.5万个编码特异蛋白的基因,分布在23对染色体上。其中一号染色体上的基因数目最多,为4 635个;Y染色体上的基因数目最少,约为330个。不同生物的基因组大小差异很大(表1-2)。大肠埃希菌的基因组含有4.2×106个碱基对;酵母的基因组含有1.3×107个碱基对;而某些哺乳动物的基因组含有的碱基对高达109以上。但是基因组的大小与基因的数目并没有直接的线性关系。酵母的第三号染色体含有5万个碱基对,携带有28个基因;而在玉米的基因组中,根据已知的部分序列的分析,其中一段DNA的5万个碱基对中,只有两个基因,其中一个基因的功能还是未知的。这种差异固然是长期进化的结果。我们今天所看到的这种进化结果就是不同生物的基因结构形成了各自的特点。
表1-2 几种不同生物的基因组大小
(一)单拷贝基因与多基因家族
最初,人们推测人类基因组含有8万~15万个基因。随着人类基因组计划的完成,通过对所获得基因组序列的分析,认为人类基因组含有3万~3.5万个编码特异蛋白的基因。而最新资料表明人类基因可能在5万个左右。这些基因,小的只有几百个碱基对,而大的可以多达200多万个碱基对,平均为3万个碱基对。许多基因是单拷贝基因,编码的蛋白质维系着细胞的功能,如酶、激素、受体、结构蛋白和调节蛋白等。这些单拷贝基因或低重复序列基因约占全基因组序列的75%。它们也具有人类基因的共同结构特点。
1.人类基因的结构特点 人类基因的显著特征是含有非编码的插入序列,称为内含子(intron)。内含子能够转录成mRNA前体(precursor),但是在mRNA前体的转录后加工过程中被剪切掉,因此不包括在成熟的mRNA序列中。被内含子分隔开的编码序列称为外显子(exon),剪接后连在一起形成成熟的mRNA,参与指导蛋白质合成。不同基因的内含子和外显子的数目及大小各不相同,人的胰岛素启动子因子1(insulin promoter factor 1,IPF1)基因全长为5 000个碱基对,含有2个外显子(852个碱基的mRNA)、1个内含子;而人的膜辅因子蛋白(membrane cofactor protein,MCP)基因全长超过8万个碱基对,含有14个外显子(1 125个碱基的mRNA)、13个内含子。由此可见,内含子的序列远远大于编码序列(coding region)。根据人类基因组草图的分析推测,基因的编码序列仅占全基因组序列的3%。内含子的生物学功能还不是非常清楚,有研究表明在某些基因中内含子的存在可以保证或增强基因的稳定表达。还有些基因的内含子中包含其他基因的编码序列,即基因内基因。例如,在人的神经纤维瘤病1型基因(neurofibromatosis type 1,NF1)的第27内含子序列中,含有3个小基因:少突神经胶质细胞髓磷脂糖蛋白(oligodendrocyte myelin glycoprotein,OMG),嗜同病毒整合位点2A和2B(ecotropic virus integration site 2A/2B,EVI2B,EVI2A),在这3个基因内也还都含有外显子和内含子。真核生物基因的两侧各有一段不被转录的序列,对基因表达、调控具有重要作用。在这些序列中主要有启动子、增强子和终止子等。
(1)启动子(promoter):一般位于基因转录起始点上游-100~-200碱基对范围,是能够与RNA聚合酶结合并起始转录的核苷酸序列,包括一组转录调控序列:①TATA盒(TATA Box):人类许多基因的转录起始点上游-25~-30碱基对的位置有一段高度保守的序列,即TATA盒。它由7个碱基组成,即TATAAAA或TATATAT。TATA盒是转录因子TFⅡD的结合位点,TFⅡD再与RNA聚合酶Ⅱ形成复合物,启动基因转录。②CAAT盒(CAAT Box):是位于转录起始点上游-70~-80个碱基对位置的一段保守序列,由9个碱基组成,即GGNCAATCT,其中N=C或T。CAAT盒与转录因子CTF结合,决定启动子转录的效率。③GC盒(GC Box):有一些基因没有TATA盒与CAAT盒,但在转录起始点上游-35碱基对的位置发现富含GC的核苷酸序列(GGGCGG),称为GC盒。GC盒能与转录因子Sp1结合,促进转录的过程。
典型的启动子通常含有TATA盒以及上游的CAAT盒及GC盒。这类启动子一般具有一个转录起始点及较高的转录活性。仅有TATA盒和转录因子也可以构成最简单的启动子。然而,还有许多启动子不含TATA盒。这类启动子分为两类:一类是富含GC的启动子,最初发现于一些管家基因(housekeeping genes),这类启动子一般含有数个分离的转录起始点;另一类启动子既不含TATA盒,也没有GC富含区,这类启动子可有一个或数个转录起始点,大多数转录活性很低或根本就没有转录活性,而只是在胚胎发育、组织分化和再生过程中受到调节。
(2)增强子(enhancer):是一段短的DNA序列,其中含有多个作用元件,可以特异性地与转录因子结合,增强基因的转录活性。与启动子不同,增强子可以位于基因的任何位置。尽管通常处于转录起始点上游-100~-300个碱基对处,但在内含子中也发现有增强子的存在。增强子的功能与其位置和方向无关,可以是5′→3′方向,也可以是3′→5′方向。1986年,Maniatis等研究干扰素-β(IFN-β)基因转录时发现其增强子内含有负调控序列,称为负增强子,又称为沉默子(silencer)。由于负增强子的发现,有人建议用调变子(modulator)取代增强子的概念。
(3)终止子(terminator):是在结构基因中的最后一个外显子中的一段保守的AATAAA序列。在此位点的下游有一段GT或T丰富区,与AATAAA序列共同构成poly(A)的加尾信号。mRNA转录到此部位后,产生AAUAAA和随后的富含GU或U的序列,被结合在RNA聚合酶上的延长因子识别并与其结合,然后在AAUAAA下游10~30个碱基的部位切断RNA,并加上poly(A)尾。
2.多基因家族(multigene family) 本意是指核苷酸序列或编码产物的结构具有一定程度同源性的基因,其编码产物常常具有相似的功能。另外,还有一种基因家族,是由多基因家族及单基因组成的更大的基因家族,它们的结构有程度不等的同源性,但是它们的功能不一定相同,称为基因超家族(gene superfamily)。根据基因家族内成员同源性的程度,以下分别进行介绍。
(1)核酸序列相同:这种家族实际上是一个基因的多次拷贝,成簇地排列在同一条染色体上,形成一个基因簇。包括rRNA基因家族、tRNA基因家族和组蛋白基因家族等。有些家族的基因在染色体上是串联排列的,如5SrRNA基因借间隙区串联成簇,其中每一个5SrRNA都被间隔序列分开,间隔序列的大小比5SrRNA的基因长度大2~6倍,而且还含有中度重复序列。每一个5SrRNA基因都被单独转录,产生出一个独立的RNA分子。
真核细胞一般都有几百到1 000多个tRNA基因,每种tRNA含有10个到几百个基因拷贝。同种tRNA往往串联在一起形成基因簇,但在基因间有非转录区分隔,可以比结构基因长将近10倍。组蛋白基因家族在染色体上的排列是另外一种形式,5种组蛋白基因串联成一个单元,许多单元再串联成一个大簇。这种重复成串的排列与DNA复制时需要大量的组蛋白有关。
(2)核酸序列高度同源:在这种基因家族中,多数成员的同源性非常高。如人的生长激素基因家族,包括3种激素的基因:生长激素(growth hormone,GH)、胎盘促乳素(chorionic samatomammotropin,CS)和催乳素(prolactin,PRL)。它们之间的同源性非常高,尤其是GH和CS之间,氨基酸序列有85%的同源性、mRNA序列有92%的同源性,说明它们来自于一个共同祖先基因。但是,PRL与GH和CS之间仅在氨基酸序列上有50%的同源,mRNA水平上的同源性非常低。这3种基因在不同的染色体上,GH和CS基因位于第17号染色体长臂,而PRL基因位于第6号染色体。α珠蛋白基因家族则是由高度同源的几个基因成簇地排列在同一条染色体上。有些基因可能同时发挥作用,也有些基因在不同发育阶段进行表达。
(3)编码产物的功能或功能区同源:在某些基因家族成员之间,基因全长序列的相似性可能较低,但其编码产物却具有高度保守的功能区。如src癌基因家族,各成员基因结构并无明显的同源性,但每个基因产物都含有250个氨基酸顺序的同源蛋白激酶结构域。一些结构类似、功能相关的受体也是这样被划分成一个个家族的。还有些基因家族成员的DNA序列并不明显相关,但所编码的产物却具有共同的功能特征,如DEAD盒基因家族含有几个不同的基因,它们的产物都具有解旋酶的功能,其结构特征是8个氨基酸的保守序列,内含DEAD盒序列:Asp-Glu-Ala-Asp。
(4)基因超家族:其组成更为复杂。其成员虽然在结构上有一定的相似性,但是功能不一定相同。这些基因在进化上亲缘较远,最经典的是免疫球蛋白基因超家族。开始,这一家族只包括α2微球蛋白、MHCⅠ类抗原的α链、Ⅱ类抗原的α链和β链、Thy1、CD4、CD8等免疫相关分子的基因,以后又发现了许多免疫系统内以及与免疫无关的家族成员。通过应用计算机分析基因结构序列,可以使越来越多的基因归为一类,从而使原来的多基因家族成为基因超家族。例如丝氨酸蛋白酶(serine proteases)基因家族,原来是多基因家族。它们的基因产物都有一个特殊的功能区,具有酶的功能。丝氨酸是活性中心的关键氨基酸残基,因此称为丝氨酸蛋白酶家族。现在已有很多新成员加入进去,特别是载脂蛋白(apolipoprotein),只是转移胆固醇蛋白颗粒中的成分,而不具有水解蛋白质的酶功能。因此成为基因超家族。
(二)假基因
假基因(pseudogene,ψ)是指与某些有功能的基因结构相似,但不能表达基因产物的基因。这些基因起初可能是有功能的,在基因复制时编码序列或调控元件发生突变,或是插入了mRNA反转录的cDNA,缺少基因表达所需要的启动子序列,变成了无功能的基因。
由突变而引起的功能缺失通常是在编码区引入了终止子,这种假基因称为传统假基因(conventional pseudogene)。例如,存在于α珠蛋白基因簇中的假基因(ψβ)就是由于在β基因编码序列的第20位碱基的丢失而引起移码突变所造成的。由插入了mRNA反转录生成的cDNA而造成的假基因称为加工的假基因(processed pseudogene)。这种假基因实际上是一个功能基因的mRNA被反转录成为cDNA,然后cDNA又被插入到基因组中(图1-11)。它们不含有内含子,大多数也没有基因表达所需要的调控区,因此不能被表达。假基因在高等哺乳动物基因组中是一种普遍的现象,许多多基因家族中的部分成员为假基因。通常,假基因仅占总基因数目当中极少的一部分。小鼠核糖体蛋白的编码基因是个例外。在这个基因家族中,只有一个是有功能的编码基因,而有15个假基因。在这种情况下,根据分子杂交结果进行基因数目分析时就要考虑到真正有功能的基因数目要远远低于杂交结果所预示的数目。
假基因的存在可能是在长期进化过程中所形成的。但是作为一种没有生物学功能的基因,为什么能够一直保存下来,难道它们真的没有任何功能,还是我们所看到的假基因没有来得及被丢失?许多问题有待于解答。
(三)重复序列DNA
在人类基因组中,编码序列只占基因组总DNA量的3%左右,非编码序列占95%以上。其中一部分是基因的内含子、调控序列等,另一部分便是重复序列(repeat sequences)。真核基因组的重复序列可以高达总DNA量的50%。重复序列中,除了编码rRNA、tRNA、组蛋白以及免疫球蛋白的结构基因外,大部分是非编码序列。其功能主要与基因组的稳定性、组织形式以及基因的表达调控有关。除单拷贝或低重复序列DNA外,根据重复序列出现的频率不同,可以将DNA序列分为高度重复序列DNA和中度重复序列DNA。
1.高度重复序列DNA DNA序列在基因组中的重复次数可高达数百万次(>105),这种序列可以集中在某一区域串联排列。典型的高重复序列DNA有卫星DNA(satellite DNA)和反向重复序列(inverted repeats)。
图1-11 加工的假基因来源
加工的假基因被认为是某个功能性基因转录出的mRNA拷贝整合到基因组而产生的。这个mRNA先被反转录成cDNA拷贝,而后者可能整合到母体基因所在的染色体中,或整合到其他染色体中
(1)卫星DNA:实际上是出现在非编码区的串联重复序列。其特点是具有固定的重复单位,该重复单位首尾相连形成重复序列片段,通常存在于间隔DNA和内含子中。串联重复单位可以从2个碱基起,长短不等;重复次数可以从几次到数百次,甚至几十万次。串联重复序列是形成卫星DNA的基础。卫星DNA可以分为三类:①大卫星DNA(macro-satellite)也称经典卫星DNA,是在CsCl密度梯度离心时发现的。将基因组DNA打断成为约104碱基对大小的片段,加入到CsCl溶液进行超速离心形成密度梯度,原核生物DNA可显示一条宽带,而真核生物DNA除形成同样的主要宽带外,还出现其他条带,这些条带中的DNA称为卫星DNA(图1-12)。这是由于某段DNA分子中存在大量重复序列,DNA的(G+C)/(A+T)的比值不同于主带DNA的比值,因而密度也不同于主带DNA。大卫星DNA可以根据密度不同分为几种不同类型,同一类型不同家族成员之间碱基组成比例相同,但是DNA序列未必相同。大卫星DNA的确切功能还不清楚。②小卫星DNA(mini-satellite)是由中等大小的串联重复顺序构成,分布在所有染色体,又可以分为高度可变的小卫星DNA和端粒DNA。前者重复单位9~24bp,重复次数变化很大,呈高度多态性(称为可变数目串联重复序列,variable number of tandem repeats,VNTRs)。其核心序列是GGGCAGGAXG,可能与DNA的同源重组有关。端粒DNA的主要组成成分是由重复序列(TTAGGG)n组成的2~20kb的DNA区段,在染色体的复制、末端保护等方面起重要作用。③微卫星DNA(micro-satellite)是一类更简单的寡核苷酸串联重复序列,其重复单位为1~5bp,重复次数10~60次,其总长度通常小于150bp,分布在所有的染色体。常见的是以(AC)n和(TG)n的二聚核苷酸为重复单位,存在于内含子、间隔DNA中,也可以存在于编码区,编码区的重复顺序均为3个碱基组成的重复单位,如人雄激素受体基因内的(AGC)n。微卫星DNA由于重复单位的重复次数不同而具有高度的遗传多态性,并且遵照孟德尔遗传规律,可以作为很好的遗传标记。
(2)反向重复序列:是指两个顺序相同的拷贝在DNA链上呈反向排列。一种形式是两个反向排列的拷贝之间隔着一段间隔序列;另一种形式是两个拷贝反向串联在一起,中间没有间隔序列,这种结构又称为回文结构。人类基因组中约含5%的反向重复序列,常见于基因的调控区内,可能与复制、转录的调控有关。
图1-12 人类基因组卫星DNA
人DNA的平均GC含量为40.3%,平均浮力密度为1.701g/cm3,主要由单拷贝DNA组成的片段,其GC含量接近平均值,且位于主带中。卫星带浮力密度为1.678、1.693和1.697g/cm3,由重复DNA的长段组成。这些片段GC含量取决于各自重复模体的序列,与基因组的平均值不同,由此,这些片段与单拷贝DNA的浮力密度不同,在密度梯度离心时会移动到不同的部位
2.中度重复序列DNA 在基因组中的重复次数为10~105次,散在分布于基因组中,约占基因组DNA总量的35%。中度重复序列常与单拷贝基因间隔排列,有一部分是编码rRNA、tRNA、组蛋白及免疫球蛋白的结构基因,另外一些可能与基因的调控有关。Alu家族是中度重复序列中研究最多的一种散在重复序列,由于序列中有限制性内切酶Alu的酶切位点而得名。其重复单位是300bp,由两个130bp的重复序列组成,中间有31bp间隔序列。Alu序列在单倍体基因组中重复30万~50万次,散在分布于整个基因组中,但相对集中在染色体的R带。Alu序列300bp两侧各有一段17~21bp的正向重复序列,类似于转位因子的靶位点顺序。Alu顺序之所以散在分布于整个基因组,可能是由于Alu序列转录形成的RNA分子在反转录酶的作用下,产生cDNA,然后又重新插入到基因组中。因此推测Alu序列可能是人类基因组DNA中的一种逆转座子。Alu序列是灵长类基因组所特有的,因此可以作为天然标记。
3.重复序列的多态性 人类个体的千差万别,其物质基础在于基因组DNA的差异。DNA重复序列的多态性是构成这些差异中十分重要的一种。在高度重复序列中的无间隔反向重复序列很容易形成限制性内切酶识别位点,也很容易由于突变产生或失去一个酶切位点,因而可以造成限制性片段长度多态性(restriction fragment length polymorphism,RFLP),即用同一种限制性内切酶消化不同个体的同一段DNA时,由于碱基组成的变化而改变限制性内切酶识别位点,从而会产生长度不同的DNA片段。这种方法称为限制性片段长度多态性技术,简称RFLP技术。
如前所述,小卫星DNA和微卫星DNA也具有很高的多态性,并且按孟德尔规律遗传,具有体细胞稳定性和种系稳定性,因此可以作为遗传标记,在疾病基因的检测、产前诊断以及法医学鉴定等方面具有重要作用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。