现代基因组研究的一个里程碑就是从生物体中获取了海量的序列数据。随着基因组数据增长,我们需要可靠的数学方法来管理这些不断涌现的信息。因此,基因组时代的第一项重大挑战便是如何通过建立和使用计算机数据库来存贮和调用这些海量的数据。这也成为生物信息学的一项基本任务(表3-1)。
表3-1 主要生物数据库
(续 表)
一、什么是数据库
数据库指的就是用以存贮,管理数据并且可以用来运算的档案馆。根据一些特定的检索规则,信息可以从中被方便地调用和分析。数据库由计算机硬件以及管理数据的软件共同组成。开发数据库的主要目的就是使得数据能被合理归类并且易于调用。每一项纪录,又称为词条,都应包括多项分类以及对应的数据。用户通过输入特定的信息片段,也称为关键词,就能通过计算机中特定分类中找到所有的相关数据。这一过程也称为信息检索。尽管数据库的主要任务是提供数据,但对生物数据库却有更高的要求:探索新的知识。这是指生物数据库需要在信息第一次被输入时,寻找信息片段之间的相互联系。例如,提供原始序列信息的数据库就能够进行额外的序列同源性计算或探查保守序列等功能。
二、生物数据库的分类
基于数据库的内容,生物数据库可基本分为三大类:一级数据库、二级数据库以及专业数据库(表3-1)。一级数据库收录的是最原始的生物数据,包括由各个科研机构录入的原始序列数和结构数据等,例如GenBank和Protein Data Bank(PDB)。二级数据库收录的是基于一级数据库中的原始数据进行计算,推衍或人工注释后的信息,如带有蛋白功能注释的转录后蛋白质序列数据库,这包括SWISSProt,Protein Information Resources(PIR)等。专业数据库则是指那些专注于某一专门研究领域的信息中心,例如:收录果蝇基因组的FlyBase,收录人类免疫缺陷病毒(HIV)及相关免疫学信息的HIV sequence database以及关注核糖体RNA序列及其种系谱的Ribosomal Database Project。目前药物基因组学也有其专业的数据库,如Pharmacogenomics Knowledge base(pharmGKB),PharmaADME,Human Cytochrome P450(CYP)Allele Nomenclature Committee等。值得注意的是,许多专业数据库实质上整合了一级和二级数据库的一些功能和内容,使得各个专业的终端用户能更集中检索自己所需要的信息,从而使信息的获取更加高效,准确。这些将在稍后的章节中详细介绍。
(一)一级数据库
目前在全球范围内,有三大主要的公共核酸序列数据库,这包括GenBank,European Molecular Biology Laboratory(EMBL)database以及 DNA Data Bank of Japan(DDBJ)。这些数据库分别由美国国家生物技术信息中心,欧洲生物信息实验室以及日本国立遗传研究所建立和维护,并通过国际互联网向全球公众免费开放。现在,大部分科学杂志都会要求科研人员在发表其论文前,将发现的序列数据录入到GenBank,EMBL或者DDBJ数据库中,以确保这些数据能为其他研究者免费获得。这三大公众数据库每天都通过自动更新程序相互交换新的数据信息,并一起建立了国际核酸序列数据库协作组织。从而保证,当用户登入任何一个数据库时,检索到的都是相同的序列数据,只是三大数据库所储存的原始数据的格式各有不同。
就储存生物分子三维结构的数据库而言,目前仅有一个即PDB。这一数据库收录了通过X射线晶体学和磁共振(NMR)确定的原子坐标和分子结构,包括蛋白质和核苷酸。该数据库使用平面文本格式提供蛋白质名称,发现人,实验设计,二级结构以及原子坐标等信息,同时还提供观察简单三维结构图像的工具。
(二)二级数据库
在一级数据库中,对于序列数据的注释信息往往是很少的。为了将原始的序列信息转成更直观,实用的生物学资料,对这些原始数据的后期处理则变得尤为重要。而包含了各种运算方法的二级数据库便在这一过程中扮演着重要的角色。例如SWISS-PROT就是一个典型的例子。该数据库对各种蛋白质序列进行了详细的注解,包括蛋白质结构、功能、家族分类等。而这些蛋白质序列数据则主要来自另一个一级数据库,即EMBL的转录后核酸序列库(TrEMBL)。对于蛋白质序列的注释一般包括功能,结构域,活性中心,配体结合部位,翻译后修饰,代谢通路信息,疾病相关以及与其他序列的相似性分析等。大部分信息都来自科学文献,并需要由专业人员人工录入数据库,以保证结果的质量。
(三)专业数据库
专业数据库一般服务于一个特定的科研领域或科研团体。这些数据库的内容可能包括各种序列信息或其他类型的信息。这些信息可能已包括在现有的一级数据库中,也可能来自于研究人员的实时更新。由于这些数据常常由该领域的专家进行注释,因此可能拥有独特的存储格式和注释方式。同时,这些数据库也可能收录了一些原始数据处理后的功能信息,即二级数据库的信息。因此,专业数据库是为各研究领域服务的,包括一级,二级数据库信息和该专业人员实时更新信息的专一信息中心。例如,专门服务于药物基因组学的PharmGKB;欧洲生物信息学研究所(EBI)提供的生物芯片基因表达数据库等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。