第3节 人类基因组研究的相关信息资源
人类基因组计划实施以来,基因组数据增长十分迅猛,一些大型公用数据库如Gene-Bank、DGB、PIR、SWISS-PROT等纷纷建立,同时一些高等院校、研究所也建立了各自的主页提供信息服务,如Sanger测序中心、华盛顿大学的遗传学系等,而且它们多数是免费的。
一、美国国立生物技术信息中心
美国国立生物技术信息中心(national center for biotechnology information,NCBI)始建于1988年11月4日,它是美国国立卫生研究院(NIH)的国立医学图书馆(NLM)的一个部门。它是美国国家分子生物学信息资源中心,也是全球最有影响的生物学网站之一,其主要任务是发展新的信息学技术,来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。除GeneBank外,它还提供并维护在线人类孟德尔遗传(OMIM)、分子模型数据库(molecular modeling database,MMDB)以及public MEDLINE这三个主要的数据库,同时还提供其他多种数据库。NCBI的网址是:http://www.ncbi.nlm.nih.gov。
图15-1所示为Internet Explorer 6.0的界面,其中标示了WWW地址的输入位置、保存、打印、打开特定页面内容等常用功能。同时,以NCBI的主页为例标示了一般主页和“超文本”的特征。
图15-1 Internet Explorer的NCBI的主页
图示WWW的基本概念、软件基本功能和NCBI主页的主要入口
(一)GeneBank
GeneBank是美国国立卫生研究院遗传学序列数据库,是目前世界上最重要的核酸序列数据库之一。GeneBank包含了所有已知的核酸序列和根据DNA翻译的蛋白质序列,以及与它们相关的文献著作和生物学注释。它最常用的是序列文件。序列文件的基本单位是序列条目,包括核苷酸碱基排列顺序和注释两部分。
序列条目的关键字如下。
LOCUS 序列的座位名称
DEFINITION 定义
ACCESSION 登录号
VERSION 版本
KEYWORDS 关键词
SOURCE 序列来源物种
ORGANISM 物种分类
REFERENCE 参考文献
AUTHORS 作者
TITLE 标题
JOURNAL 杂志
PUBMED PubMed 编号
REMARK 序列引用与条目的关系
COMMENT 补充说明
FEATURES 序列特征
ORIGIN 序列
// 结束符
NCBI的数据库检索查询系统是Entrez。Entrez是基于网页界面的综合生物信息数据库检索系统。利用Entrez系统,用户不仅可以方便地检索Gene Bank的核酸数据,还可以检索来自GeneBank和其他数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集,以及由PubMed获得MedLine的文献数据(表15-1)。
表15-1 Entrez数据库查询系统提供的数据库
Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成。用户可以利用Entrez界面上提供的限制条件(limits)、索引(index)、检索历史(history)和剪贴板(clip-board)等功能来实现复杂的检索查询工作。对于检索获得的记录,用户可以选择需要显示的数据,保存查询结果,甚至以图形方式观看检索获得的序列。更详细的Entrez使用说明可以在Entrez主页上获得(图15-2)。Entrez的网址是:http://www.ncbi.nlm.nih.gov/en-trez/。
EMBL和DDBJ也是国际上最主要的核酸数据库。EMBL(http://www.ebi.ac.uk/embl)由欧洲分子生物学实验室(European Molecular Biology Laboratory)于1982年创建,其名称也由此而来,目前由欧洲生物信息学研究所负责管理。DDBJ(http://www.ddbj.nig,ac.jp/)是DNA Data Base of Japan的简称,创建于1986年,由日本国家遗传学研究所负责管理。1988年,EMBL、GeneBank和DDBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。根据协议,这三个数据中心各自收集世界各国有关实验室和测序机构所发布的序列数据,并通过计算机网络每天将新测定或更新过的数据进行交换,以保证这三个数据库序列信息的完整性。
图15-2 Entrez主页
(二)OMIM
在线人类孟德尔遗传(online mendelian inheritance in man,OMIM)是以人类孟德尔遗传(MIM)与疾病为基础的人类基因及其相关突变的在线目录,由美国Johns Hopkins大学医学院Victor A McKusick教授编辑整理。OMIM是一个良好的提供简要的人类基因和遗传性疾病背景生物学信息的数据库,包括了人类基因中最常见的具有显著临床意义的突变和多态性、不同详细程度的综合性疾病的资料和准确的文献摘要等。它是医学遗传学最权威的数据库,被誉为医学遗传学界的“圣经”。OMIM于1987年应运而生,并且免费供全世界科学家浏览和下载。
典型的OMIM条目包括下面几个部分。
OMIM编号
遗传病或基因名称
DESCRIPTION 描述
NOMENCLATURE 分类
CLINICALFEATURES 临床特征
INHERITANDE 遗传特征
CYTOGENETICS 细胞遗传学
MAPPING 基因定位
MOLECULAR GENETICS 分子遗传学
DIAGNOSIS 诊断
POPULATION GENETICS 群体遗传学
ANIMAL MODEL 动物模型
HISTORY 研究历史
ALLELIC VARIANTS 等位变异型
SEE ALSO 参见
REFERENCES 参考文献
联机形式的在线人类孟德尔遗传(OMIM)的网址是:http://www.ncbi.nlm.nih.gov/omim。
(三)MMDB
分子模型数据库(molecular modeling database,MMDB)是由X光结晶与NMR光谱所获得的3-D生物分子结构资料库。MMDB是Brookhaven Protein DataBank(PDB)3-D结构的子集,它包括生物分子空间结构描述、化学上的组合资料以及空间资料与化学资料间的关系。MMDB可用来作蛋白质的结构比对和结构预测。
其网址是:http://www.ncbi.nim.nih.gov/structrue。
(四)PubMed
PubMed系统是由美国国立生物技术信息中心(NCBI)开发的用于检索MedLine、Pre-Med-Line数据库的网上检索系统。MedLine是美国国立医学图书馆(U.S.National Library of Medicine)最重要的书目文摘数据库,内容涉及医学、护理学、牙科学、兽医学、卫生保健和基础医学,收录了全世界70多个国家和地区的4300余种生物医学期刊,现有书目文摘条目1000万余条,时间起自1966年。PubMed的网址是:http://www.ncbi.nlm.nih.gov/。PubMed是Entrez系统的主要数据库之一,用户可在网上通过PubMed免费检索MedLine数据库。
PreMedLine是一个动态性医学文献数据库,它每天都在不断地接受新数据,可为用户提供基本的文献条目和文摘,其文献条目在标引和加工后每周向MedLine移加一次。PubMed是NCBI中的一个数据库,是文摘数据库,而PubMed central是一个全文数据库,在PubMed界面中输入要检索的内容检索,结果中将只出现摘要显示。部分以全文显示
。同时在检索结果的题录的右方有“related articles”和“links”,以备检索与检索主题相关的PubMed文章和进行链接。
二、基因组数据库
基因组数据库(GDB)是美国Johns Hopkins大学医学院于1990年建立的重要的人类基因组数据库,现由加拿大儿童医院生物信息中心负责管理。它包括以下几方面的内容。
(1)人类基因组的区域,包括基因、克隆、细胞遗传学标记、EST、重叠群(contig)、重复片段等。
(2)人类基因组图谱,包括细胞遗传学图谱、连锁图、放射杂交图谱、重叠群图谱、转录图等。
(3)人类基因组内的变异,包括基因突变和基因多态性,还有等位基因发生频次等数据资料。
此外,GDB数据库还包括了与GeneBank、EMBL、OMIM、MedLine等网络信息资源的超文本链接。GDB数据库以对象模型来保存数据,提供基于网页的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式观看基因组图谱。
GDB的网址是:http://www.gdb.org。
GDB的国内镜像是:http://gdb.pku.edu.cn/gdb/。
三、人类基因突变数据库
人类基因突变数据库(human gene mutation database,HGMD)是由英国卡尔地夫医学遗传研究所构建的,从大约250种期刊中收集突变信息,用计算机和手工结合的方法来扫描这些期刊以寻找相关报道。包括在编码区、调控区和剪接区域的点突变,还包括插入、缺失、复制和重复,最近加入了疾病相关的多态。突变信息主要包括染色体定位、突变类型列表和相关的表型列表,并将基因内所有突变定位到HGMD的参考序列上;此外还链接到GDB、OMIM和相关单一位点突变数据库。HGMD是获取已克隆的致病基因分子生物学研究资料最快捷的途径之一。
目前,临床医师获取有关疾病与基因研究信息的最佳途径是NCBI的OMIM和Cardiff的HGMD。OMIM内容较全面,而HGMD内容较简捷。
四、SNP数据库
SNP是single nucleotide polymorphism的缩写,即单核苷酸多态性。SNP在基因组中分布相当广泛,近来的研究表明在人类基因组中每100~300bp就出现一次。大量存在的SNP位点,使人们有机会发现与各种疾病包括肿瘤相关的基因组突变。从实验操作来看,通过SNP发现疾病相关基因突变要比通过家系来得容易。有些SNP虽然不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。近年大量涌现的SNP信息主要有两个来源:SNP协会和人类基因组测序协会,特别是Sanger研究所和华盛顿大学,这两个来源相互之间有重叠。来自这些为数不多但联系密切的SNP信息,促进了一个中心数据库——NCBI的dbSNP的发展。该数据库一般都有两个身份标志(ID):ss编号和rs编号。前者是为所有研究者提交的SNP都生成的编号,称为NCBI分析编号;而后者是在与所有已有数据比较后,为独特SNP生成的编号,称为参考SNP编号。
五、SWISS-PROT蛋白质序列数据库
SWISS-PROT是蛋白质序列注释性知识数据库,1986年由瑞士日内瓦大学医学生物化学部创建。1987年该部与EMBL开始合作。现在由EBI(European Bioinformatic Institute)和瑞士生物信息研究所共同协作维护。SWISS-PROT蛋白质序列数据库和其他序列数据库一样,其序列数据可分为核心数据和注释两部分。对于每个序列数据记录,核心数据包含序列数据、文献信息(发表的书目文献)、分类学数据(蛋白质生物起源的描述);注释部分包含蛋白质的功能、转译后修饰、结构域和结合位点、二级结构、与其他蛋白质的相似性、与蛋白质缺陷相关的疾病等信息。SWISS-PROT数据库中的记录采用了一定的结构以利于人工阅读和计算机程序阅读。利用英语进行解释、描述、分类和评述,也尽可能利用生物化学、蛋白质化学、分子生物学领域所熟悉的符号。每个序列记录由数据行组成。每行有其自身的格式,记录不同的数据。表15-2列出了SWISS-PROT记录字段及含义。
SWISS-PROT蛋白质序列数据库的网址是:http://www.expasy.ch/sprot/。
表15-2 SWISS-PROT记录字段及含义
六、PIR和PSD
1984年,蛋白质信息资源(protein information resource,PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。与核酸序列数据库的国际合作相呼应,1988年成立了PIR国际蛋白质序列数据库(PIR-international protein sequence database,PSD),它是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联,以及具有共同特征的条目之间的方便检索。每季度都发表一次完整的数据库,每周可以得到更新部分。
PSD有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
PIR和PSD的网址是:http://pri.georgetown.edu。
数据库的下载网址是:ftp://nbrfa.georgetown.edu/pri/。
七、PDB数据库
蛋白质数据库(protein databank,PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其他文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。
PDB数据库的网址是:http://www.rcsb.org/pdb/。
八、综合数据库(链接)
随着生物信息资源及相关数据的不断积累,建立能将尽可能多的数据整合到一起的综合性数据库很有必要。此类数据库的主要代表如下。
(1)GeneCards(http://bioinfo.weizmann.ac.il/):是有关人类基因和它们的产物以及它们与疾病的关系的综合数据库,它是由Crown人类基因组中心以及位于以色列Rehovot的Weizmann科学研究所(WIS)生物信息部的科学家组织、发展和扩大的。GeneCards提供了关于所有已被确认的人类基因的功能的简洁信息。
(2)NCBI的位点链接LocusLink(http://www.ncbi.nlm.nih.gov/LocusLink/)。LocusLink提供一个单一查询界面来找到某一个遗传位点的序列和描述性信息。它展现官方命名、别名、序列登录、表型、EC号码、MIM号码、UniGene聚类、同源、图谱位点和相关的网站信息。
(3)斯坦福的SOURCE(http://source.stanford.edu.cgi-bin/source/sourceSearch)也是提供基因序列、结构、功能、蛋白质等诸多信息的综合性入口或中心联结站。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。