第五节 生物信息学数据库
一、概况
生物信息学数据库是生物信息学的重要组成部分,生物信息学中很多研究成果与科研发现都会在该类数据库中体现。随着生物信息学的飞速发展,其相关数据库的数量也快速增长。Nucleic Acids Research杂志每年都出一期专刊(DATABASE ISSUE),详细介绍经过仔细选择后的最新版本的各种生物信息学数据库。
生物信息学数据库按照所收录内容可以分为以下五种。
(1)核酸序列数据库
比较有代表性的有GenBank、EMBL Nucleotide Sequence Database、DDBJ。
(2) RNA序列数据库
有European rRNA database、Ribosomal Database Project(RDP-II)、Yeast snoRNA Database等。
(3)蛋白序列数据库
有NCBIProtein database、EXProt、PIR-Protein Information Resource、Swiss-Prot(UniProtKB\ Swiss-Prot)、Animal Toxin Database等,其中的Swiss-Prot由专家编译数据,虽然数据更新与加工的过程比较长,但由于其权威性,使其成为高质量蛋白质数据库的代表。
(4)结构数据库
该类数据库又分为Small Molecules、Carbohydrates、Nucleic Acid Structure、Protein Structure四类。
(5)其他类型数据库
包括基因组数据库、代谢与信号通路数据库、人类与其他脊椎动物基因、人类基因与疾病、微序列与其他基因表达数据库、蛋白质资源等。
二、核酸序列数据库
GenBank、EMBL与DDBJ是国际上三大主要核酸序列数据库。GenBank在20世纪80年代初由美国国家卫生研究院(National Institute of Health,NIH)委托Los Alamos国家实验室建立,后移交给国家生物技术信息中心(NCBI)负责维护。EMBL在1982年由欧洲分子生物学实验室(European Molecular Biology Laboratory)创建,目前由欧洲生物信息学研究所负责管理。DDBJ于1986年创建,由日本国家遗传学研究所负责管理与维护。1988年,GenBank、EMBL与DDBJ共同建立了国际核酸序列联合数据库中心,建立合作关系,即各个中心分别搜集与发布各个实验室或测序中心所发布的序列,通过计算机网络,三大中心每天进行数据交换,这样可以保证三大中心数据的一致性与完整性。
1.GenBank
(1) GenBank数据库检索
GenBank数据库是NCBI数据库中的一个重要数据库。在进入NCBI网站(http://www.ncbi.nlm.nih.gov)后,可以选择该库进行单库检索,也可以使用NCBI提供的Entrez跨库检索功能。Entrez是一个集成语义文献搜索引擎,该搜索引擎可以搜索NCBI中大多数数据库,如图6-5-1所示。如需查找有关“P53”的生物学文献,在检索词输入框中输入“P53”,点击“GO”按钮,系统将自动执行检索功能,并且按照各个数据库,分别列出各库的检索结果。按照实际需要查看相应的检索结果。
图6-5-1 Entrez搜索
(2)核酸序列检索结果
在核酸序列的检索结果界面中,系统按照Nucleotide(核苷酸)、EST(表达序列标签)、GSS(基因组概览序列)来分类显示检索结果,如图6-5-2所示。每条结果由序列存取号、基因定义、数据库标识符等组成,根据基因的定义可以选择合适的结果,点击序列存取号可进入该基因的详解界面。
图6-5-2 检索结果界面
在GenBank中,每条记录均以“LOCUS”开始,常有的字段有说明(Definition)、编号(Accession)、关键词(Keywords)、种属来源(Source)、学名(Organism)、文献(Title)、特征表(Features)、碱基组成等。
(3) BLAST功能
BLAST(Basic Local Alignment Search Tool,基本局部相似性比对搜索工具)是各核酸序列数据库提供的基于Web的比对工具,如图6-5-3所示。该功能提供blastp、blastn、blastx、tblastn、tblastx五种程序。可把在实验中或是在测序过程中所获得的序列通过选择合适的Blast程序,与数据库中已有的序列进行比对,如图6-5-4所示。
图6-5-3 BLAST功能
图6-5-4 BLAST结果
(4)向GenBank提交序列数据(Submit to GenBank)
测序结束后,经过BLAST的比对,如在序列数据库中并未发现完全一样的序列时,则可以把该段新序列提交,添加到GenBank数据库中。在GenBank界面上有“Submit to GenBank”的链接,点击后进入,可以选择基于Web界面的BankIt程序(http://www.ncbi.nlm.nih.gov/BankIt)或Sequin(http://www.ncbi.nlm.nih.gov/Sequin)来完成提交过程。
Bank It功能更适合于不太复杂的单序列提交。在提交过程中系统不能自动地对提交的序列进行分析;而Sequin程序则可以提交复杂、冗长的序列,也可以多条序列同时提交。该程序可以很方便地进行图形的预览,编辑要提交的数据。
2.EMBL
EMBL核酸序列数据库(http://www.ebi.ac.uk/embl)的功能与NCBI平台上的数据库功能相似,其检索结果界面如图6-5-5所示。该数据库中的数据已实现与GenBank的交换,该系统也提供数据的检索、比对与提交,但数据结构与GenBank略有不同,见表6-5-1。
图6-5-5 EMBL数据库检索结果界面
表6-5-1 EMBL与GenBank数据库格式
3.DDBJ
DDBL(DNA Data Bank of Japan,http://www.ddbj.nig.ac.jp),日本DNA数据库。可以进行数据检索与序列分析,实现数据的提交。该数据库能够与GenBank和EMBL的数据进行交换。
三、蛋白质数据库
1.UniProt
UniProt(The Universal Protein Resource,http://www.uniprot.org)是一个蛋白质序列及其注释的综合性数据库,是the European Bioinformatics Institute(EBI)、the Swiss Institute of Bioinformatics(SIB)以及the Protein Information Resource(PIR)的合作产物。在以前EBI和SIB共同建立与维护Swiss-Prot and TrEMBL数据库,而PIR则完成了the Protein Sequence Database(PIR-PSD)。在2002年,这三个机构决定将原有的三个数据库资源进行融合,从而建立了UniProt数据库。该数据库保留了Swiss-Prot由专家对数据进行加工与注释的形式,也同时建立了机器的自动语义标引,从而在确保数据质量的前提下,能更及时地对数据进行加工与维护。UniProt数据库提供数据的检索,蛋白质序列的比对以及数据的提交。如果需要,可在该网站上下载蛋白质数据。
2.PROSITE
PROSITE数据库(http://www.expasy.ch/prosite)搜集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族,是序列分析的有效工具。某些情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能Motif。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其他蛋白质结合的区域等。除了序列模式之外,PROSITE还包括由多序列比对构建的Profile,能更敏感地发现序列与Profile的相似性。PROSITE的主页上提供各种相关检索服务。
四、结构数据库
1.PDB
蛋白质数据库PDB(Protein Data Bank,http://www.rcsb.org/pdb/home/home.do)在20世纪70年代由美国Brookhaven国家实验室建立,是国际上唯一的生物大分子结构数据档案库。从1998年开始,POB数据库由RCSB(Research Collaboratory for Structural Bioinformatics)进行数据维护与管理。PDB搜集的数据来源于X光晶体衍射和核磁共振(NMR),经过整理和确认后存档而成。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,还发行光盘。使用Rasmol等软件可以在计算机上以PDB文件格式显示生物大分子的三维结构。和核酸数据库一样,研究人员可以通过网络直接向PDB数据库提交数据。
2.SCOP
SCOP(Structural Classification of Proteins,http://scop.mrc-lmb.cam.ac.uk/scop)是由英国医学研究会(MRC)剑桥分子生物学实验室开发的蛋白质结构分类数据库,详细描述了已知蛋白质结构之间的关系,分类基于若干层次:①家族:描述相近的进化关系;②超家族:描述远源的进化关系;③折叠子(Fold):描述空间几何结构的关系;④折叠类:所有折叠子被归于全α、全β、α/β、α+β和多结构域等几个大类。
SCOP还提供一个非冗余的ASTRAIL序列库,通常被用来评估各种序列比对算法; SCOP还是一个PDB-ISL中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。
3.CATH
CATH其含义为类型(Class)、构架(Architecture)、拓扑结构(Topology)和同源性(Homology),由英国伦敦大学UCL负责开发和维护。CATH数据库的构建既使用计算机程序,也进行人工检查。CATH数据库的分类基础是蛋白质结构域。与SCOP不同的是,CATH把蛋白质分为四类,即a主类、b主类,a-b类(a/b型和a+ b型)和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。CATH数据库的第二个分类依据为由α螺旋和β折叠形成的超二级结构排列方式。CATH数据库可以通过UCL的生物分子结构和模拟实验室的网络服务器(http://www.biochem.ucl.ac.uk/bsm/cath)来查询。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。