生物信息学中设计的分子生物学数据库类型很多,最常用的包括序列数据库、定位数据库、医学信息数据库、基因组数据库、结构数据库等[4,5]。
7.3.1 分子生物学数据库
分子生物学数据库在现代生命科学中起着非常重要的作用。作为生物信息学和基因组学中的关键内容,这些数据库主要解决DNA和蛋白质序列分析、功能基因组学、蛋白组学和生物大分子结构分析中的核心问题,从而为数据存储、查找和分发提供有效的途径。
分子生物学数据库中的信息可以是DNA序列,保守的DNA结构域、基因组、基因表达、蛋白质序列、蛋白质家族、基因突变、基因多态性和代谢途径。目前已有许多数据库,通过Internet在搜索引擎可查到数百个数据库。一般而言,分子生物学数据库依照数据类型、物种类型、数据来源、进入便利性、数据录入方式和侧重点等分类。
目前流行的数据库是基于数据类型如DNA,RNA,EST,蛋白质而建立的。例如,NCBI中的Uni Gene(http://www.ncbi.nlm.nih.gov/Uni Gene)数据库是一种DNA序列数据库。该数据库是基于实验数据从Gen Bank中自动分出来的一种根据基因类别而建立的非冗余性数据库。
第二种数据库是根据物种类型。包括各种不同的相应物种的信息,其数据库内容可有不同来源,例如TAIR数据库,提供有关基因、分子标记、多态性、图谱、基因和蛋白家族等多种信息。
第三类分子生物学数据库是根据数据来源来分类,可分为原始数据库和衍生数据库。原始数据库一般只存储递交者寄送的序列,如Gen Bank和PDB等,衍生数据库是根据原始数据库编译得到的。
7.3.2 序列数据库
7.3.2.1 核苷酸序列数据库
核苷酸序列数据库是最常见的一类序列数据库。如EMBL(http://www. ebi.ac.uk/embl)和Gen Bank(http://www.ncbi.nlm.nih.gov/Genbank/Gen-bank/Search.html)含有各种物种的DNA序列。如NDB(http://ndbserver.rut-gers.edu/)等提供有关核酸的结构信息。
在核苷酸数据库中,EMBL,DDJB和Gen Bank是国际性核苷酸数据库的主干。这三大数据库之间每天都相互交换信息。这三大数据库依照相同的文献指南来规范数据库条目的内容和句法,保证同一种格式进行数据库之间的数据共享,并与现行的生物信息学软件兼容,反映分子生物学和普通生物学的进展情况。
1)EMBL核苷酸数据库
该数据库由位于英国剑桥附近的欧洲生物信息学研究所维护,并于Gen Bank和DDBJ共同协作。EMBL数据库已处理自1982年以来全世界范围内所公布的序列。
EMBL数据库包括两个主要部分:第一部分是发行区,每隔3个月对外发行一次。第二部分是序列每日增添新区。数据库的结构按照flatfile格式进行布局。包括四大主要数据区,第一个区包括描述和标识符,如条目名称。保密状况、分子类型等基本描述内容,第二个区是引文区,包括引文详细内容以及原递交者姓名和联系方式。第三个区是由许多特征行组成,包括序列的特征,如详细来源、生物特征等。最后一个数据区由序列资料、长度和碱基组成。
进入EMBL数据库有两种基本方法,分别是利用FTP服务器进行数据库查询和数据传输。简单序列查找和SRS是用户最常用的检索数据库的工具。简单序列查找可根据登记号码检索到50个条目,而SRS可使用户检索所有数据库信息。其数字增长曲线如图7-1所示。
图7-1 EMBL数据库的增长曲线
2)Gen Bank
Gen Bank是一个综合性的公共核苷酸和蛋白质序列数据库,并提供相关的文献目录和生物学注释。Gen Bank数据库结构分布方式是按传统方法分成不同的区组,大致按分类学进行区分。
Gen Bank的flatfile是Gen Bank数据库的基本单位。分为三个区:标题,特征和序列。标题区含有整个记录的描述信息,特征区是表示该记录有关生物学信息的重要内容,如所编码的蛋白质或RNA分子的重要信息。最后的区是碱基的总数、各种碱基的数目以及首个碱基在基因组中的定位等信息。Gen Bank数据增长曲线如图7-2所示。
3)DDBJ
DDBJ代表的是日本DNA数据库。分布与Gen Bank相似,划分为不同区组,例外的是将“人类”从灵长类单列出来。其基本信息采用Gen Bank的flatfile格式。
图7-2 Gen Bank数据库的增长曲线
7.3.2.2 蛋白质序列数据库
目前主要的蛋白质序列数据库有:经过多重比对获得的无空位的蛋白质高度保守区的短序列数据库BLOCKS(http://www.blocks.fhere.org/),G-蛋白偶联受体数据库GCRDB(http://receptor.mgh.harvard.edu/GCRDBHOME.html),高质量校阅过的蛋白质相互作用数据库MIPS(http://www.mips.biochem.mpg. de),氨基酸突变数据库PMD(http://pmd.ddbj.nig.ac.jp)等。
1)蛋白质的基本立体结构数据库PDB
蛋白质的基本立体结构数据库为PDB(Protein Data Bank),是计算机化的生物大分子三维结构数据源,1971年建立于美国布鲁海克海文国家实验室。网址为http://www.rcsb.org/pdb/。该数据库中收集了通过X射线衍射和核磁共振(NMR)试验测定的蛋白质结构的精确坐标数据。这种数据即蛋白质中的原子坐标是蛋白质结构的最细致的层次。在1993年午初时,PDB库己收录了1492个蛋白质和核酿的晶体结构,到1999年6月,PDB库已扩展到含有10056个蛋白质、多糖和核酸及其复合物的晶体结构,可免费提供网络查询,该数据库近几年的数据量增长如图7-3所示。
目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务以及关于PDB数据文件格式和其他文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。
图7-3 pdb数据库数据量增加
2)PIR和PSD
除PDB库外,相关的生物大分子结构数据源还有蛋白质序列数据库,其中PIR(Protein Identification Resource)库最重要。PIR为PIR-International这个大分子序列资料收集中心所维持的蛋白质序列鉴定数据库。由美国国家生物医学研究基金会(National Biomedical Research Foundation)维护,是美国最主要的蛋白序列数据库,为世界两大蛋白序列数据库之一。此中心包括National Biomedical Research Foundation(NBRF)的Protein Information Resource(PIR),日本的Japan International Protein Information Database及Martinscried Institute for Protein Sequence(MIPS)。它们共同构成了PIR-国际蛋白质序列数据库(PSD)——一个主要的已预测的蛋白质数据库,包括250000个蛋白质。PIR是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包括从PIR-PSD、SWISS-PROT、Tr EM-BL、Gen Pept、Ref Seq、PDB收集的约800000条序列,对每条序列给出了一个符合的名称和相关文献。为了提高蛋白质预测和实验数据之间的相互吻合程度,PIR建立了一套系统,允许研究者们递交、分类、提取文献信息。PIR提供了在超家族、域和模体水平上的对蛋白质的分类。PIR同时提供了蛋白质的结构和功能信息,并给出了与其他40个数据库之间的相互参考。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。
PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST, FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索Gene FIND等。PIR和PSD的网址是:http://pir.georgetown.edu/。数据库下载地址是:ftp://nbrfa.georgetown.edu/pir/。
3)SWISS-PORT
在核酸序列数据库中,SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其他30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其他EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。
SWISS-PROT中的数据来源于不同源地:①从核酸数据库经过翻译推导而来;②从蛋白质数据库PIR挑选出合适的数据;③从科学文献中摘录;④研究人员直接提交的蛋白质序列数据。2004年3月的SWISS-PROT43.0版本有146720序列登录项,包含摘自113719篇参考文献的54093154个氨基酸。SWISS-PROT的网址是:http://www.ebi.ac.uk/swissprot/。
7.3.3 基因组图谱数据库
指定基因或分子标记到某个染色体并确定其位置的方法有很多种。经典的定位方法是配子定位。其原理是根据双杂交或多杂交种染色体重组。第二类定位方法是通过原位杂交技术建立的细胞遗传学图谱。定位于细胞遗传学图谱的标记可直接通过图像观察进行确定。第三种类型的定位图为物理图。这种图谱可以直接确定不同基因组成分的距离或根据克隆DNA片段对各基因组成分进行排序。第四种类型是全基因组序列图。
7.3.3.1 小分子结构数据库CSD
剑桥结构数据库(Cambridge Structural Database System,CSDS)是由剑桥晶体数据中心(Cambridge Crystallographic Data Centre,CCDC)发展的基于X光和中子衍射实验唯一的小分子及金属有机分子晶体的结构数据库,库中的数据都是实验数据。这个库是同类科学数据库中应用最广泛,最负盛名的一个。CSDS基本上包括已发表的所有原子个数(包括氢原子)在500以内的有机化合物及金属有机化合物晶体数据,并对收集的数据进行严格评审。随着PDB和NDB(Nucleic Acid Da-tabase)快速发展,CSDS不再包括低核苷酸的数据,但增加了高分子的数据。
CSDS包括功能完整的应用软件,不仅具有数十种查询化合物的方法,还提供了分子结构信息统计方法和三维图像演示方法,以帮助研究人员寻找、观察、分析和总结有关的化合物信息。CSDS软件分为基本软件系统和图形软件系统。CCDC目前提供的剑桥晶体结构数据系统CSDS包括:
(1)CSD:CSDS的核心,目前CSD收集了约47.5万分子结构,并以每年9%的速度进行增长。随着实验方法的进步,新装入数据的质量越来越高,超过91%的数据拥有小于0.05的R值。
(2)Con Quest:用于从剑桥结构数据库搜索和提取结构信息的基础软件。该软件提供在剑桥结构数据库中全方位的文字与数字查询,同时还具有更高级的搜索功能:①化学亚结构的搜索;②几何结构的搜索;③分子间和分子内相互关系的搜索。
对于所查询的每个三维化学亚结构,Con Quest可帮助用户定义、提取和输出与之对应的一系列几何参数,并直接与Mercury相链接以显示选中的结构,或者与Vista链接以分析和显示所提取的几何数据。
(3)Pre Quest:可方便用户构建自己专用的晶体结构数据库,然后可对该数据库用Con Quest独立或与CSD相结合进行搜索。
(4)VISTA:是一个互动的分析与统计软件,可阅读用户自定义的几何数据和其他通过Con Quest从CSD中提取的数字信息。
(5)Mercury:提供了一整套丰富的软件工具用于显示及比较晶体与分子结构,从而探索分子网络与晶胞堆积。
(6)Mogul:可迅速地从CSD中几百万个各类化学键长、键角和非环扭转角数据中提取信息以便快捷地显示分子的几何结构。应用范围包括验证新的晶体结构,发现新的几何特性,查证通过计算而得到的构象(如过滤筛选蛋白质-配体嵌合模拟的结果以便去除不可能的配体构象),及建立配体库以用于蛋白质晶体结构的精调。
(7)Iso Star:对收集在CSD和PDB实验数据库中的非键相互作用的几何参数信息进行快速访问。
CSD库有许多用处,实验化学工作者可以从中查到自己感兴趣的化合物的三维结构信息(如果该化合物测定过三维结构书收集在CSD库中的话),而计算机化学工作者最常用的方式就是从CSD得到有机小分子晶体的原子坐标,作为进一步寻找低能量构象的起点。又或可用来查新,看某一感兴趣的分子是否已进行过结构测定等。
7.3.3.2 中药成分及生物活性数据库
生物活性数据库是一种新类型的科学数据库,即交叉学科数据库。在进行QSAR研究及中药现代化研究中,要用到大量综合性的、多学科的数据和信息,并且都是计算机格式化的,要建立包含多学科的相关数据的数据库。这一类数据库的根本特点是库中同时含有两种或两种以上专业领域的信息或知识。因此可称为交叉学科数据库或多学科数据库。举例来说,在进行QSAR研究时,一方面我们已经可以从结构数据库中较方便地得到许多分子的结构数据,但另一方面却常常需要花费许多时间从文献资料中来依次地收集相应的生物活性数据。在正式开始QSAR研究之前的准备阶段,人们就面临对自己耐心的巨大考验。而且,对同一热门研究对象,这种手工收集相应的生物活性数据的工作不止一次地重复进行。其原因就是还没有一个同时包含结构数据和活性数据的多学科的数据库。
“中药现代化”包括中药研究、使用和生产开发的各个方面。对于中药成分及生物活性数据库,它最基本的性质应该同时包括分子结构“s”和生物活性“a”两方面的信息。一个同时包括“s”和“a”两方面信息的数据库必将为结构活性关系研究带来极大的方便,这是显而易见的。其次,也需要植物资源信息、分子结构信息和药理活性信息。植物资源信息是指以中药药用植物及其同属植物为研究对象,分子结构信息是指植物化学成分的分子结构表达要细到三维立体化学水平,药理活性信息则是指要尽可能多地收集做过分子生物活性实验的实验结果。
现在西方科学家正越来越多地从单一的化学合成转向从天然植物资源来发现新药。从数百种(最多几千种)中药药用植物出发来发现新药,其命中率比从几十万种植物出发要高得多、风险要小很多、希望要大得多。因为这几百种中药药用植物都是经过了几千年来中华民族的“临床”实验证实,有肯定的疗效,而且大都是低毒、低副作用的。有了这样一个库,就可以方便地运用已有的各种统计数学、人工智能工具,以“结构信息系统分析”的方法来寻找关系、建立模型、发现规律,必将在中药现代化研究与开发中,在中药走向世界的进程中发挥积极的作用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。