运用电子信息技术处理数量巨大生物信息的一般思路有特定用途和专利价值。近十年来,科学家们通过基因组计划的研究,获得了大量有关生物分子信息的数据,另外计算机的发展也给科学家们提供了前所未有的分析工具,从而为基因和蛋白信息的产业化提供了强有力的手段。生物信息产业化归根到底就是通过数学和计算机的分析手段将生命的数据(基因和蛋白)变为可商业化的信息,从而大大缩短药物及其他生物技术产品开发的时间。表2-2清楚地阐述了数据与信息的本质区别。
表2-2 数据与信息的区别
注:数据和信息之间的比较表明信息知识具有潜在的巨大商业价值(一个类比是:木材[:数据]和家具[:信息])
(一)我国应用现状
在我国,生物信息学的研究是近年才从国外引入和发展的,现在日益受到各方面的重视,包括政府、高校和研究机构。但是,我国在生物信息学方面的研究起步晚、投资少,无论从硬件还是软件上讲,都还比较落后。然而,要在生物医药研究方面赶超世界先进水平,就必须发展生物信息学。新的药物及治疗方法可以解除病人的痛苦,提高国民的健康状况,减少医疗费用,为政府分忧,其社会效益与经济效益一样是巨大的。专利和知识产权受到法律保护,通过对功能基因组和蛋白的生物信息学研究,发现新的疾病相关基因及候选药物基因,能为新药的进一步研究和开发打下良好的基础,从而产生巨大的经济效益。在国际生物医药行业里,一个与制药有关的技术和产品通常来说,最少值300万美元。近年来许多例证表明,一些重要专利的价值将远远高于这个数字。例如美国安进(Amgen)公司花费2000万美元买下一个与人体肥胖相关基因专利;格兰素-威康(Glaxo-Wellcome)用5亿美元收购Affymax公司,也就是看中其拥有新药快速筛选中的一个专利技术。
通过对人的基因组进行研究,并由此筛选出许多具有特定序列的新基因,然后再对这些新基因进行功能研究。从这些新基因的特殊生物功能来探寻它们成为新药的可能性,或探寻这些新基因成为新药筛选与设计的靶子的可能性,从而达到筛选新药的目的。与传统实验室筛选新基因的方法相比,生物信息学研究可以减少前期研究和开发的盲目性,节约科研经费和人力投入,缩短新药开发周期,它的作用是非常巨大的。
(二)人类基因组等研究
20世纪90年代以来,人类基因组和其他模式生物基因组计划全面实施。许多生物包括古细菌、真细菌、真核生物的全基因组序列测定已经完成,此外,一大批病毒、类病毒、噬菌体、线粒体、叶绿体、质粒的全序列测定也已经完成。已经完成的细菌基因组和病毒基因组中,不少与人类疾病相关,人类基因组30亿个碱基对的草图序列也于2001年2月分别在Science和Nature杂志发表,小鼠、河豚、拟南芥、水稻、玉米等其他模式生物基因组的全序列测定,正在加速进行或有的已经完成。基因组模式生物数据库纷纷上网,如人类基因组GDB、小鼠基因组MGD、果蝇基因组Flybase、线虫基因组ACeDB、水稻基因组RiceGenes、酵母基因组Yeast和大肠杆菌基因组ECDC等。
随着基因组计划的实施,核酸和蛋白质一级结构序列数据及与此相关的分子生物医学文献摘要数据迅速增长。这些数据库分别由国际著名的生物信息中心负责管理、维护和运行,如核酸序列数据库GenBank和文献摘要数据库MedLine由美国的国家生物技术信息中心(National Center for Biotechnology Information,NCBI)管理,核酸序列数据库EMBL由英国剑桥的欧洲生物信息学研究所(European Bioinformatics Institute,EBI)管理,核酸序列数据库DDBJ由日本国家遗传学研究院(National Institute of Genetics,NIG)管理,蛋白序列数据库SwissProt由瑞士生物信息研究所(Swiss Institute of Bioinformatics,SIB)管理,蛋白质结构数据库PDB原由美国Brookhaven国家实验室管理,1998年10月移交给美国结构生物信息学合作研究机构(Research Collaboration for Structural Bioinformatics)管理。
(三)应用前景
计算机网络的发展,互联网在全球的普及,为分子生物信息数据库的利用开辟了广阔前景。由测序中心所得到的数据,通过计算机网络直接送往国际核酸序列数据中心。此外,生物学家也可以通过SeqIn、WebIn等基于互联网的序列递交程序,直接向数据中心递交数据。由于数据库容量的急速增长,利用磁盘、磁带、光盘等介质向生物学家发布数据库已经变得相当困难,而计算机网络传输速度的不断增加,为数据传输提供了极好的手段。NCBI、EBI、NIG均有免费的数据下载服务。1999年10月,北京大学生物信息中心的FTP服务器开始为国内外用户免费提供数据库下载服务,包括核酸序列数据库GenBank和EMBL、蛋白质序列数据库SwissProt和PIR、蛋白质结构数据库PDB等,其中EMBL、SwissProt和PDB已经做到与国际数据中心同步更新。分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即基因组数据库、核酸和蛋白质一级结构序列数据库、生物大分子(主要是蛋白质)三维空间结构数据库及以上述3类数据库和文献资料为基础构建的二次数据库。基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定。这些数据库是分子生物信息学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库,是数据库开发的有效途径。近年来,世界各国的生物学家和计算机科学家合作,已经开发了几百个二次数据库和复合数据库,也称专门数据库、专业数据库或专用数据库。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。