染色体不能直接用来测序,必须将基因组这一巨大的研究对象进行分解,使之成为较易操作的小的结构区域,这个过程就是基因作图。人类基因组计划的任务可用4张图谱来概括,即遗传图谱、物理图谱、转录图谱和序列图谱。
(一)遗传图谱
遗传图谱是反映基因或DNA标记在染色体上的相对位置与遗传距离的图谱,它是通过计算连锁的遗传标志之间的重组频率来确定它们之间的相对距离的。绘制遗传连锁图的方法已在前面作了简单的介绍。在DNA多态性技术未开发时,鉴定的连锁图很少,随着DNA多态性的开发,可利用的遗传标记数目迅速扩增,遗传图也逐步由“粗”到“细”。早期使用的多态性标志有RFLP(图2-4)、RAPD、AFLP;20世纪80年代后出现的有STR(短串联重复序列,又称微卫星,图2-5)DNA遗传多态性分析和90年代发展的SNP(单个核苷酸的多态性分析,图2-6,图2-7)。建立精细遗传图的关键是获得足够的、高度多态性的遗传标记。
图2-4 限制性片段长度多态性(RFLP)
左侧的DNA分子具有一个多态性限制位点,而右侧的分子并不具有。经限制性内切核酸酶消化后,左侧的分子被切成4个片段,而右侧的分子切成3个片段,显示出RFLP
图2-5 STR及其显示方法
A.图示一个简单串联重复(微卫星)的两个等位基因。在等位基因1中,′GA′基序重复了3次,在等位基因2中重复了5次。B.图示如何通过PCR进行STR分型。扩增STR及其周围的区域,扩增产物用琼脂糖凝胶电泳或毛细管电泳分析。在琼脂糖凝胶中的A泳道是PCR产物而B泳道是DNA标记,代表两个等位基因PCR后的带的大小。泳道A的带与较大的DNA标记的大小一致,表明被测DNA含有等位基因2。毛细管电泳的结果以电势图来显示,峰的位置指明了PCR产物的大小。电势图经过标准标记物的自动校准,所以可以计算出PCR产物的准确长度
图2-6 单核苷酸多态性(SNP)
(二)物理图谱
图2-7 SNP分型的方法
A.在适当的条件下,在5′或3′端与模板DNA发生错配的寡核苷酸能够与模板DNA错配杂交形成一个短的、非碱基配对的“尾”;B.通过寡核苷酸连接分析进行SNP分型;C.ARMS测试
用遗传学技术作图对于指导基因组计划的测序阶段还是远远不够的,这主要有下面原因:遗传学图谱的分辨率依赖于所得到的交换数目,而且遗传图的准确率有限,在遗传分析图谱中甚至出现一对基因的顺序被颠倒的情况。物理图谱是进行DNA序列分析和基因组织结构研究的基础。两种图谱具有相当大的差异(图2-8)。物理图谱是以定位的序列标记位点STS作为路标,以DNA实际长度即bp、kb、Mb(百万碱基对)为图距的基因组图谱。物理图谱首先是利用限制性内切酶将染色体切成片段,再根据重叠序列把片段连接成染色体,确定遗传标志之间的物理距离。
(三)转录图谱
转录图谱(transcription map)又称为cDNA图谱或表达序列标记(expressed sequence tag,EST)图谱。在整个人类基因组DNA中只有2%~5%的DNA序列为编码序列,在人体特别是成年个体的每一特定组织中,细胞内一般只有10%的基因是表达的。人类的所有性状包括疾病都是由蛋白质决定的,而所有的蛋白质都是由RNA聚合酶Ⅱ合成的带有多聚A尾的mRNA依据三联体遗传密码编码的。不同的细胞显示不同的形态与功能,是因为基因组中不同的基因被转录的缘故。不同的细胞其基因组转录成mRNA的种类和数量不同,产生的蛋白质也就不一样,即使是同种细胞在其发育过程的不同阶段,mRNA的种类和数量也不尽相同。如果能先分离、定位mRNA或根据mRNA反转录人工合成的cDNA(complementary DNA),就抓住了基因的主要部分——可转录的部分。一个成熟mRNA被全部反转录成的双链DNA叫全长cDNA,它包含了mRNA的编码区及其上游的非编码区(5′-UTR)和下游的非编码区(3′-UTR)。要获得全长cDNA的难度是比较大的,而经常只能是一个片段。长度为300~500bp的部分cDNA通常称为“EST”,EST可作为某一特定mRNA或基因的代表。转录图的分析可显示不同种细胞或同种细胞不同发育阶段、生理和病理状态下的基因表达情况,也可启示基因的生物功能。一般来说,mRNA的3′端非翻译区是代表每个基因的比较特异的序列,将对应于3′-UTR的EST序列进行定位,即可构成由基因组成的EST图。这些EST不仅对基因组遗传图谱的构建提供了大量的分子标记,而且来自不同组织和器官的EST也为基因的功能研究提供了有价值的信息。此外,EST计划还为基因的鉴定提供了候选基因(candidantes)。其不足之处在于通过随机测序有时难以获得那些低丰度表达的基因和那些在特殊环境条件下(如生物胁迫和非生物胁迫)诱导表达的基因。因此为了弥补EST计划的不足,必须开展基因组测序。通过分析基因组序列能够获得基因组结构的完整信息,如基因在染色体上的排列顺序、基因间的间隔区结构、启动子的结构以及内含子的分布等。
(四)序列图谱
因为目前的DNA测序技术还不能对很长的DNA链进行直接测序,因此要获得序列图就需要前面所介绍的遗传图和物理图。序列图谱(sequence map)是人类基因组计划的终极目标。目前最有效的序列作图技术,也是能对大型基因组产生最详尽图谱的技术,是序列标记位点(sequence tagged site,STS)作图法,其构建序列图的策略是将庞大的基因组分成若干有路标的区域后,再着手进行测序工作。一个STS是一段短的DNA序列,通常其长度为100~500bp,易于识别,且在拟研究的染色体或基因组中只出现一次。完成一套STS图谱需要收集来自单条染色体或一个完整基因组的重叠的DNA片段。
序列分析的过程是采用一个区域的DNA片段重叠群使测序工作不断延伸,其间的STS则被用作任何两个片段间的重叠区域,使分别被测的短序列进行正确的拼接。为了提高效率和降低成本,应尽量建立DNA小片段的重叠群并尽可能地降低重叠部分所占的比例。
在图2-9中,从单条染色体中制备一组DNA片段,使染色体上每一点平均有5条片段对应。在收集作图必需的数据时,需要排列每一个STS,了解哪些片段包含有哪些STS。这些可以通过杂交分析来完成,但通常会使用PCR的方法,因为PCR更快捷,更易于自动化。两个STS共存于同一个片段中的概率依赖于它们在基因组中的相邻程度。如果它们相当接近,那么它们存在于同一片段中的机会就相当的大。而如果它们位置相距较远,那么有时它们会在同一片段上,有时则不会。所以,这些资料可用来计算两个标记间的距离,其方式与连锁分析中计算图距的方式相同。在连锁分析中,两个标记间的图距是根据它们的交换频率来计算的。STS作图与连锁分析是一样的,不同之处仅在于两个标记间的图距是根据分离频率来计算的。
图2-8 酿酒酵母第3号染色体遗传图谱与物理图谱的比较
比较显示了遗传图谱与物理图谱的差异,后者是通过DNA测序确定的。值得注意的是,在遗传图谱中最上面的两个遗传标记(glk1和cha1)的顺序是错误的。两个图谱间其他几对标记的相对位置也有差异
图2-9 适用于STS作图的片段组
这些片段覆盖染色体的全长,染色体上每一点平均有5条片段相对应。染色体图谱上有的标记(左侧)很接近,它们共同存在于一条片段的可能性就高。而有的标记(右侧)相隔较远,它们位于同一条片段中的可能性就较小
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。