首页 理论教育 什么是生物信息学

什么是生物信息学

时间:2023-03-16 理论教育 版权反馈
【摘要】:生物信息学和计算生物学都植根于生命科学,计算机技术以及信息学技术之中。尽管生物信息学和计算生物学存在一定的差异,但同时也存在很大的相似性。生物信息学专指对基因和基因组的序列,结构以及功能的分析。生物信息学的最终目标是在分子水平阐明细胞的各种功能。在科研活动中,生物信息学和实验科学是两个相对独立又动态互补的过程。此外,来自生物信息学的假说推测的可靠性还依赖于原始数据的质量以及各种算法的可靠性。

生物信息学和计算生物学都植根于生命科学,计算机技术以及信息学技术之中。这两门交叉学科都发源于一些特定的传统学科,如数学,物理学,计算机科学,工程系,生物学以及行为科学等。生物信息学和计算生物学都各自独立的应用于生命科学的方方面面。生物信息学通过应用信息学方法和技术分析高通量,高维度和高复杂度的生命科学数据,以使这些数据更易于理解和使用。计算生物学则通过应用数学的和计算学方法来探讨生物学中的各种理论和实验问题。尽管生物信息学和计算生物学存在一定的差异,但同时也存在很大的相似性。

一、定 义

根据美国国家卫生研究所(NIH)的定义,生物信息学是指“通过研究,开发或应用计算机工具和方法来拓展生物学、医学、行为科学或卫生健康数据的应用深度,这包括对这些数据的获取,储存,管理,分析以及可视化。”生物信息学专指对基因和基因组的序列,结构以及功能的分析。而与这些分析相关的衍生产品则常被归入计算生物学。NIH对后者的定义是“在生物学,行为科学和社会系统中各种数据分析工具,理论方法,数学模型以及模拟计算技术的开发和应用。”例如,生态系统的数学模型、种群动态模型,在行为学研究中应用博弈论以及使用化石记录构建种系发生图谱等。这些都涉及计算工具,但并不涉及生物分子。简而言之,生物信息学是介于计算机科学和生物科学之间的一门交叉学科。

二、学科任务和研究内容

生物信息学的最终目标是在分子水平阐明细胞的各种功能。通过分析分子序列和结构的原始数据,生物信息学能够为细胞功能研究提供全新的,全面的视角。这主要归功于遗传学的中心法则:DNA转录为RNA,随后RNA翻译为蛋白质。细胞功能主要由蛋白质来承载,而蛋白质的结构和功能则主要由其编码序列来决定。因此,通过分析DNA序列和结构信息来预测由其产生的蛋白质功能问题将是一项非常富有成效的尝试。

生物信息学包括两项主要任务:①开发计算工具和数据库;②应用这些工具和数据库来产生更多生物知识,从而更好地了解生命系统。这两项任务是相互补充的。开发计算工具包括为分析各种序列,结构和功能开发软件,以及构建生物数据库。这些工具主要应用于基因组学和分子生物学的3个方面:分子序列分析、分子结构分析以及分子功能分析。伴随对生物学数据的分析常常产生新的疑问,从而反过来又促进新的计算工具的开发。

序列分析主要包括:序列比对,在数据库中对序列信息的检索,探索新的序列模块,发现新的基因启动子序列,重建进化关系谱以及基因组的整合与比对等。结构分析则包括对蛋白质或核酸结构的分析、比对、分类和预测等。而功能分析则包括,基因表达特性分析、预测蛋白质之间相互作用、亚细胞结构定位以及构建和模拟代谢通路等。这3个研究方向并不是独立的,相反,常相互协作以产生综合性的结果。例如,蛋白质结构的预测常依赖于序列比对数据;基因表达特性的聚类分析则需要从序列分析中产生的种系树形图的辅助。注释一个具有多种功能的基因,则需要区分编码和非编码序列,确定翻译后的蛋白质序列,明晰该基因与其他已知基因在进化谱上的关系,这就需要用到所有这3类研究方法。

三、应 用

生物信息学不仅在基因组学和分子生物学领域发挥巨大作用,同时也广泛应用于其他生物学和生物化学领域。例如,基于数据库的药物设计,法医学中的DNA分析以及农业生物技术等。通过计算蛋白质-配体的相互作用,为快速发现和合成药物提供了新线索。获取蛋白质的三维结构信息后,新的小分子与靶蛋白的结合将具有更高的亲和力和特异性。这些基于生物信息的研究方法,显著减少了药物开发的时间,增加了药物疗效并减少了药物的不良反应和毒性。在法医学领域,分子种系谱的分析结果已被接受为呈堂证据,用以司法定罪。而一些用于分析DNA的精妙方法,如贝叶斯算法和似然分析都已用于法医上的身份鉴定之中。生物信息学技术同样应用于农业领域。植物基因组数据库和基因表达特性分析在开发新的高产作物以及抵御农业病虫害的研究中发挥着重要作用。

四、局限性

在科研活动中,生物信息学和实验科学是两个相对独立又动态互补的过程。前者依赖后者为其提供分析所需的原始数据,作为回馈,后者又为前者提供的数据进行解释并为下一步实验提供线索。生物信息学所提供的基于初始数据的推测不能作为验证实验假说的最终证据,更不能替代传统的实验方法来验证假说。此外,来自生物信息学的假说推测的可靠性还依赖于原始数据的质量以及各种算法的可靠性。例如,来自高通量分析方法的序列信息就常常存在错误,从而导致其下游分析出现偏差。因此,对生物信息学分析方法及其得到的结果保持审慎的态度来加以判别和接受是非常重要的。

由于应用于生物信息学中的各种算法常常不能有效地反映现实情况,一些得到的结果并不能从生物学角度得到合理的解释。例如序列比对中出现的各种错误可能影响对结构或种系谱的分析。同时,计算效率问题也是需要考虑的重要因素。一些准确而全面的算法常常因为计算效率太低,消耗资源过大而不得不被一些精度相对较低但高效率的算法替代。因此,客观分析生物信息学提供的对数据的解释,运用多种算法处理同组数据,比对不同算法所得结果的重复性是我们获得可靠数据解释的必由之路。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈