6.中国的基因组测序任务
中国在国际人类基因组计划中承担了1%,这是人类3号染色体短臂上的一个约30MB区域的测序任务,该区域占整个人类基因组的1%。说起这个计划的实施,没有人能比参与这项工作的中国科学家更有发言权,现在就看看他们对这件事情的全面描述:
中国参不参与序列图绘制的国际合作,已讨论了10年。如果认同人类DNA序列图是“重中之重”,关系到21世纪我国生命科学与生物产业的基础建设,不参与序列图绘制,这一步拉开了,将眼巴巴地使我国永远失去参与的机会。
苦头我们已开始吃了,如对虾病毒基因组测定忍痛让人。一步被动,势必长期被动,全局被动,耽误国是。历史将证明,中国建立大规模的基因组序列图构建系统,只是时间的问题。越晚,我们民族付出的代价就越大。不做,就是我们的失职。历史将要追究所有人的责任,包括讨论中持不同意见的双方。因此,我国的决策部门,所有相关的研究人员,一直在沉重地、痛苦地思考这个问题。
最终中科院遗传所的“人类基因组中心”(简称北京中心)于1998年8月4日开张。1999年2月决定搞大规模基因组测序,4月预运行,以创造加入“国际测序俱乐部”的条件。7月7日在国际人类基因组测序协作组登记,申请加人“国际测序俱乐部”。
1999年9月3日。在伦敦举行的第五次人类基因组测序战略会议上,作为新的成员,北京中心与已为人类基因组做出的卓越贡献的万个中心一起讨论战略,商议标准,界定区域,分析面临的问题,一起分享喜忧。占世界人口20%的中国,负责测定人类因基组序列的1%。
“国际测序俱乐部”听取了北京中心关于实验室面积。设计规划、设备类型及实际运行情况的数据统计;人员组成及素质、技术培训与实际运作等方面的情况介绍,以及依据设备、试剂、人员的实际投入与产出等所有数据做出的详尽预算。北京中心自信地宣布:保证中国科学院及其遗传所。中国中央政府及其他有关部门、地方政府和其他各种来源及中国民众对这一项目的财政支持,全额经费绝对能及时到位。
滴水穿石,非一日之功。北京中心的关键设备运行情况与国际同行并驾齐驱,令人信服地说明中心人员已掌握全部的技术关键与细节,以及世界级中心的管理与动作。北京中心自豪地展示了自己测定的难度最大,投入最大,意外最多,准确率最高的区段,以及已递交的4个片段628KB数据。这些数据,已使中国成为递交人类DNA序列数据最多的6个国家之一。北京中心对与国际同行同步,即在2000年春求完成“包干”区域的测序充满信心,并保证—半以上的序列达到“终围”的质量标准。
北京中心动最后表示:在研究过前四次“战略”会议文件的基础上,保证俗守HGP精神,特别是有关数据的即时公布与免费分享的原则。北京中心还重申反对人类基因组基本信息专利的立场,保证不保留任何数据,不申请类似的专利。
由于中国注册较晚,原定会议程序并未列入。为中国代表能及时与会,北京中心几位国际顾问四处联系,出谋划策。主要负责人最后通过越洋电话,当即决定邀请中国代表与会,各国代表纷纷祝贺。会场上数位代表或以旧交之了解,或以目睹之事实称赞中国的进步。HGP精神感人至深。在国内,基因组学界的前辈们谆谆教导,有关领导语重心长,“志在必得”兄弟院所真诚合作,地方政府鼎力支持,同仁同道倾囊相助。
截至1999年2月13日,北京中心已投入了28万余个测序反应,已完成申报投入50万个反应的一半以上,累计测定了110MB的序列,相当于把这一区域测了3次。递交国际数据库的一致性序列已完成了“工作框架图”的55%。2000年春已完成“工作框架图”完全有把握。国家人类基因组北方与南方中心也参与了这一项目。
除了完成“工作框架图”的任务外,北京中心已建立了完成单个BAC的序列组装的能力,已完成组装并递交了6个完整的BAC的DNA序列。并建立了将几个BAC的序列组装成一个连续片段的能力,能将10个BAC克隆序列组装成大片段。另外,建立了数据分析与基因鉴定的能力。24小时内,在内部网络中完成全部数据的初步分析。
“1%项目”尽管还会有争议,但它的意义,已逐步显示:
首先,显示了中国领导人与决策者的高瞻远瞩与英明果断。中国参与国际“人类基因组计划”,正如国际同行与海外留学生所说的,充分显示了我国新一代领导人与决策者,对全球科技格局的了解和参与国际合作重大课题的新思维与新策略。中科院以1000万人民币的投入,创造了又一个“中国第一”,成为中国的HGP中最具影响与实际产出最明确的主要部分。而我国以500万美元的投入,进入五强国历时10年、总投资达数亿美元的HGP行列。这种在关键时刻所表现的远见卓识、决策的果断与经费到位的快速,都是前所未有的。
其次,改变了国际人类基因组研究的格局,提高了人类基因国际合作的形象,受到了国际同行、特别是参与“人类基因组计划”的各个中心以及发展中国家的欢迎和称颂。
国际合作、公众支持的“人类基因组计划”已历时10年,一直受到美国私人公司的挑战。国际“人类基因组计划”负责人一直希望提高国际合作的形象,而由于“人类基因组计划”投入巨大、技术复杂,使英、美、日、德、法之外的其他国家,望而却步,采取了“你成我拿,你干我看”的观望态度。多数国家,特别是发展中国家,一方面基于HGP对人类本身的认识与生物产业发展之攸关,在道义上力争共享人类基因组序列信息的权利;一方面由于不能直接参与而没有实际的发言权。
正在这个时候,中国的参与,无疑受到国际“人类基因组计划”团体与发展中国家的一致欢迎。真正参与并分担实际任务的其他15个中心的负责人,无不致电致信表示欢迎,至诚之心溢于言表。
在联合国教科文组织“国际生物伦理委员会”第六次会议上,我国委员,杨焕明先生,作为发展中国家惟一真正参与“人类基因组计划”的代表,深感地位的改变:国际“人类基因组计划”负责人,希望我国代表多为HGP精神呼吁;发展中国家又希望我国能在“人类基因组计划”中多为他们争取权益。
“人类基因组计划”接近完成,各个国家讨论“人类基因组计划”的层次已达到国家最高领导人,我们这一地位将更加令人注目。
再次,“1%项目”使我国理所当然地分享“人类基因组计划”的全部成果与数据、资源与技术,拥有有关事务的发言权。
国际“人类基因组计划”的宗旨是全球合作的跨国项目。不参与,就不能直接获得资源与技术;不参与,就不可能有发言权;不参与,就随时有失去分享数据的危险。
北京中心数次派人员直接到美国最大、自动化程度最高、生物信息学最为先进的中心参观学习。所到之处,无不受到主要负责人亲自接待,具体介绍5~6个小时,并帮助培训掌握最核心的技术。我们测序的所有BAC克隆,都来自国际标准化文库,所有的BAC信息都是由他们免费提供的。
国际“人类基因组计划”所受到的挑战,带来了我国在“人类基因组计划”有无发言权的问题。如这次与美国私人公司“赛里拉”的谈判,事关世界各国能否继续分享人类基因组序列信息的大局。国际人类基因组中心的负责人向我们通报了情况并诚言:我们向您许诺,没有经过您参加的会议的讨论,我们不会做出任何决定。如果没有“丑项卧”,这种情况是不可想像的。
最后,建立了我国自己的、接近世界水平的基因组研究实力。
通过参与而分享了国际人类基因组的资源与技术,我国在短短的6个月内,走过了别人积累10年的历程,缩短了可直接比较的差距。中国科学院遗传研究所人类基因组中心日产数据ZMb,相当于世界上最强的两个中心在1993年的年产量。我们已建立了一支训练有素的能打硬仗的队伍,建立了有自己特点的全套系列与技术,积累了世界级大规模中心的运作管理经验,奠定了进一步发展的坚实基础。
我国信息产业的上游———软件与硬件,已受制于人,我们民族已在为此付出代价。资源基因已成为一个国家发展的战略资源。争夺这一资源的“世界大战”已经打响。
2000年1月13日,企图垄断基因组信息的赛里拉公司宣布:在中国的台湾与上海同时登陆。在台湾,他们得到了政界首要的支援,计划投资一亿美元。在上海,他们收购了原先以“测序服务”注册的外资公司Gewt的95%的股份。赛里拉公司开声称:得到中国富甲天下的动物、植物与人类的遗传的多样性资源,是赛里拉公司扩大国际商务与基因组信息的基础。无疑,赛里拉公司此举是有“远见”的:一方面,以掌握了中国丰富的生物资源为宣传,直逼坚持“平等分享”原则的国际“人类基因组计划”;另一方面,以雄厚的资本:一期投资3亿美元,现股票市场估价为80亿美元,与强大的技术实力:拥有300台毛细管测序仪,号称“天下第三”的超大型计算机,妄图实际控制中国的生物资源的梦想。
中国的信息产业已失“源头”又缺实力,正在走以市场换技术求发展的路子,我国的生物产业,再也不能重蹈“以资源换技术”的覆辙。
通过“1%项目”,我们已完全具备与赛里拉等公司,在速度与成本上的竞争能力。“1%项目”已成为对付“赛里拉”掠取我国生物资源的桥头堡。
建立我国的基因组测序的强大实力,与“赛里拉”等公司抗争,是保护、发展、利用我国丰富的生物资源的重要前提。由于参与了“人类基因组计划”,随着“1%项目”的完成,我们与“赛里拉”的抗争,不但不会影响我国的开放形象,相反,会进一步增进国际同行的理解与信任。
功能基因组学
当前,随着结构基因组学向染色体完成序列图的目标顺利进展,以揭示基因组的功能及调控机制为目标的功能基因组学已提上议事日程。美国HGP(人类基因组计划)1998~2003年的新目标,除了完成基因组全序列测定之外,还有人类DNA序列变异,全长d3NA克隆、发展全基因组水平功能分析的技术、模式生物体等属于功能基因组学范畴的内容。一般认为功能基因组研究包括的核心科学问题有:基因组的多样性;基因组的表达及其时、空调节;模式生物基因组研究等。还应指出,生物信息学也是对功能基因组学数据进行储存、分析和发掘的基本手段。
基因组多样性的研究
人类是一个具有多态性的群体。不同群体和个体在生物学性状以及在对疾病的易感性航性上的差别,反映了进化过程中基因组与内、外环境相互作用的结果。开展人类基因组多样性的系统研究、无论对于了解人类的起源、进化和迁徙,还是对于生物医学均会产生重大的影响。已知人类基因组DNA序列中最常见的变异形式是SNP。与罕见的单碱基变异所不同的是,SNP等位位点的频率应等于或高于1%。当SNP位于基因的编码序列中即称为CSNP。若CSNP引起蛋白质重要部位氨基酸的变异,可导致其功能改变;位于基因调控序列中的SNP则可能影响基因表达的剂量。故这两种SNP的生物学意义更为显著,是基因组中决定人类表型多样性的核心信息。另一方面,SNP因连锁不平衡(LD)所形成的单倍型,也可用于关联研究来确定与之连锁的生物学性状相关序列。目前,已发展了多种自动化和批量化检测SNP的技术,其应用范围十分广泛,包括连锁分析与基因定位;疾病的关联研究;多基因疾病的基因定位;个体识别和亲子鉴定,发病机理的研究;以及研究生物进化,生物间相互关系等。前面曾述及,edera的人类基因组测序计划包括了SNP。针对此种情况,1999年国际上10家大药厂与三家研究机构建立了SNP协作组,以后又吸引信息技术产业的数家大公司参与,对24个来自世界不同群体的个体,进行SNP的随机筛选,计划到2001年获得30万个SNP,其中半数得到定位,从而将整个基因组分隔为5~50Kb长度的LD片段。目前,该计划进展顺利,所发现的SNP在人群中测试的成功率为94%,已有41200个SNP向公共领域公布。
值得指出,目前已发现的大多数SNP属于全球人群中随机频率较高的变异,因而也就是人类进化早期阶段的“老”的SNP(约占全部SNP的85%),这些SNP的程度较低。已知不同人群间的SNP频率可以有相当大的差别,某些SNP甚而呈现群体专一性(两者相加约占全部SNP的15%),选择这些更为“年轻”的、具有群体特异性的SNP,可能更适合基于LD的关联分析。
在基因组多样性研究方面,一个近年备受医学界和制药工业界关注的新领域是药物基因组学。药物的疗效和副作用受到机体多种因素的影响,尤其是药物代谢酶、转运体、受体和其他药物靶点蛋白,而编码这些蛋白的基因在不同个体间又存在着遗传多态性,其基本形式也是SNP药物基因组学就是要阐明个体间在药物代谢和效应方面发生差别的遗传基础,促进新药的发现,并根据个体的遗传背景来优化药物治疗方案,亦即“个体化治疗”。这一研究同时也能使某些药物找到合适的治疗人群。
基因转录表达港及其调控的研究
一个细胞的转录表达水平能够精确而特异地反映其类型、发育阶段以及反应状态,是功能基因组学的主要研究内容之一。为了能够全面而不是孤立地评价全部基因的表达,需要建立全新的工具系统,其定量敏感度应达到很高战变,定性敏感度应能够区分剪接方式,还须达到检测单个细胞的能力。近年来发展的DNA芯片以及微量RNA探针制备技术已基本达到了这些目标。应用DNA芯片或微阵列技术检测基因组表达谱的主要瓶颈,已经是如何设计新的软件和算法,对生物芯片所产生的大量信息在生化通路和调控网络的水平进行分析和整合。
蛋白质组学研究的定义是在生命体或细胞的整体水平研究蛋白质的表达和修饰状态。一般使用的技术路线,是提取细胞的蛋白质,利用标准化的双向凝胶电泳分离后,用质谱仪对各个蛋白点进行分析,根据多肽的特征分析并与蛋白质数据库进行比较,鉴别蛋白质的类型和检测其修饰状态。此外,也有人在设计和制作各种蛋白生物芯片。蛋白质组的另外一个重要工作内容是建立蛋白质相互作用的系统目录,目前较常用的手段是格式化、规模化的酵母双杂交体系。
比较基因组研究
如前所述,在人类基因组的研究中,模式生物体的研究占有极其重要的地位。模式生物体的基因组结构相对简单,但是它们的核心细胞过程和生化通路在很大程度上是保守的。通过比较和鉴别进化不同阶段生物体的基因组信息,将进一步加深对人类基因组结构和功能的了解。如表是所承,从整体上看,随着进化程度的从低到高,即从原核生物到真核生物、单细胞生物到多细胞生物、节肢动物到哺乳类,基因组的信息含量由小到大,基因数量由少到多,平均基因长度由1~30KB其中,基因的平均长度可能是基因组功能复杂度最重要的指标。例如,线虫作为仅3000个细胞的动物,有约18000个基因,而果蝇的细胞数要多十倍以上,却只有13600个基因,仅从基因数目上看很难理解这种“倒置”现象,但是,按每个基因的平均长度,则线虫为5.3KB,而果蝇为10KB。
功能缺失突变和转基因的研究
识别基因功能最有效的方法可能是观察基因表达被阻断后在细胞和整体所产生的表型变化。在这方面,基因剔除术模式生物体成为特别有用的工具。国际上已实现了对酵母所有基因的缺失突变体构建。随着线虫和果蝇基因组测序的完成,也可对这两种生物展开类似的研究。小鼠作为哺乳类中代表性的模式生物,在功能基因组学研究中占有特殊的地位。到2000年3月17日为止,已产生的小鼠基因剔除或其他突变模型已达到2282种。近年来发展的条件化基因剔除术,已可达到对任何基因在不同发育阶段和不同器官、组织的选择性剔除。除了用同源重组技术制造基因剔除生物,也可用化学诱变剂或插入突变方法随机诱导模式生物体的基因突变,对产生表型变化者利用快速基因定位法识别致病基因。例如,德国科学家率先应用突变诱导剂ENU对斑马鱼和小鼠胚胎干细胞(ES细胞)进行大规模随机致突变和表型筛查,取得了很大成功。德国还建立了在小鼠巴细胞水平进行随机插入突变的合作网络。此外,近来也有人利用组合化学方法尝试针对蛋白质的化学“剔除”试剂,用来激活或失活各种蛋白质。
上述的功能缺失突变分析手段固然十分重要,但也存在着若干限制因素。如许多基因在剔除后并未产生明显的表型改变,可能是这些基因的功能为别的基因所代偿。因此,在模式生物引入基因的高表达,观察对调控网络的影响,也是研究基因功能的重要手段之一。
从“定位克隆”到“定位候选基因”
HGP的直接始动因素是要解决包括肿瘤在内的人类疾病的分子遗传学问题,因此与人类健康密切相关。另一方面,6000多种单基因遗传病和多种大面积危害人群健康的多基因疾病(如肿瘤、心血管病、代谢性疾病、神经一精神类疾病、免疫性疾病等)的致病基因和相关基因,代表了具有一定生物学允余性的所有人类基因中,结构和功能完整性至关重要的那一部分。因此,疾病基因的定位、克隆和鉴定,是HGP各种竞争中居于核心的部分,也是HGP启动以来在社会上显示度最大的成就。
20世纪80年代之前,绝大多数人类遗传性疾病的生化基础未知,无法用表型一蛋白质……基因的传统途径进行研究。在HGP的遗传和物理作图带动下,出现了“定位克隆”的全新思路,导致了包括囊性纤维化、亨廷顿舞蹈病、遗传性结肠癌、乳腺癌等一大批重要疾病基因的发现,为这些疾病的基因诊断和未来的基因治疗奠定了基础。随着人类基因组序列工作草图的问世,所有人类基因很快就会被精确地定位于染色体的各个区域。因此,一旦某个疾病位点被定位,即可从局部的序列图中进选出结构、功能相关的基因进行分析,这就是“定位候选基因”的策略。
多基因病
当前,多基因疾病已成为疾病基因组学研究的重点,多基因疾病木遵循孟德尔遗传表型一基因型的规律,难以用一般的家系遗传连锁分析取得突破。过去数年中,已发展了受累同胞对分析、关联研究和连锁不平衡(LD)分析、基于家系背景的连锁不平衡分析等多种方法,结合MS和SNP等高度多态性标志的应用,对家系和人群进行疾病相关位点在基因组中的定位。一般认为,隔离人群或较均一的人群可能是进行多基因性状定位研究较理想的群体,已知多基因疾病是由多个微效基因的累加作用和某些环境因子作用所致,估计参与多基因疾病发病原理的基因可达3~20个,这些基因的SNP及其特定组合可能是造成疾病易感性最重要的原因。因此,选择相对隔离人群,对疾病相关调节通路的候选基因或通过基因组定位所限定的候选基因进行SNP的关联研究,可能是多基因疾病发病原理取得突破的希望所在。
疾病相关基因的网络概念
从生物大分子互作和网络调控的结构模式来研究和分析疾病基因的作用,是当前疾病基因组学研究的另一个特点。即使是在单基因疾病,基本的分子发病学原理也是由于疾病基因蛋白产物结构一功能的缺损或改变,阻碍或干扰了在特定生化通路中的生物大分子相互作用;而多基因疾病发生和发展更是多基因或多通路间平衡失调的结果。这样一种认识突破了以往“一个基因一种清”的模式,既能更深入透彻地了解疾病病理生理过程及其影响因素,又为利用调节网络设计药物或基因治疗提供了新的思路。
基因组信息与环境的相互作用
绝大多数人类疾病是基因组信息与环境因子相互作用的结果。1997年美国提出了环境基因组学计划(EGP),其目的是要了解环境对人类疾病的影响和意义。由于人类遗传的多态性,不同个体对环境致病因素的易感性也有差异。针对与环境中物理、化学或生物因素发生相互作用蛋白的编码基因(如DNA修复机制、氧化一还原反应及病毒受体蛋白等),识别其基因组多样性和结构一功能关系,将有助于发现特定环境因子致病的风险人群,并制定相应的预防措施和环境保护策略。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。