首页 理论教育 核酸信息分析

核酸信息分析

时间:2023-02-17 理论教育 版权反馈
【摘要】:EMBL是在1980年由欧洲分子生物学实验室创建的,目前由欧洲生物信息学研究所负责管理。PCR技术是分子生物学实验中广泛使用的基本技术。因此,PCR引物设计也是分子生物学实验的基本技能之一。PCR引物设计是非常成熟的分子生物学技术之一,需要遵守一套非常严谨和实用的引物设计规则。
核酸信息分析_分子生物学实验手

一、查找基因序列及基因基本信息——GeneBank

在分子生物学实验中,当确立了感兴趣的目的基因或确定了几个欲研究的候选基因后,我们首先希望了解这些基因的基本情况,例如它的位置、长度、种属、序列、编码区、编码蛋白、表达特征等。这些信息的获知就可以通过检索核酸序列数据库。

目前国际上有三大主要的核酸序列数据库,它们是EMBL、GeneBank和DDBJ。EMBL是在1980年由欧洲分子生物学实验室(European molecular biology laboratory,EMBL)创建的,目前由欧洲生物信息学研究所负责管理。DDBJ是日本DNA数据库(DNA data base of Japan)的简称,1986年创建,目前由日本国家遗传学研究所负责管理。GeneBank是美国国立卫生研究院(national institute of health,NIH)于20世纪80年代初委托洛斯阿拉莫斯(Los Alamos)国家实验室建立的,后移交给国立生物技术信息中心(national center for biotechnology information,NCBI),隶属于NIH下设的国家医学图书馆(national library of medicine,NLM)。在1987年,EMBL、GeneBank 与DDBJ正式建立合作关系,共同成立了国际核酸序列联合数据库中心。这3个数据中心各自搜集世界各国有关实验室和测序机构所发布的序列数据,并通过计算机网络每天将新发现或更新过的数据进行交换,以保证这3个数据库序列信息的完整性和一致性。

GeneBank核酸序列数据库是广泛使用的核酸序列数据库之一。据Nucleic Acids Research 2006数据库专刊统计,GeneBank中收录的核酸序列超过4 600条,超过510亿个碱基,多达205 000个物种,而且碱基总数平均每18个月就翻一番,物种数平均每个月增加3 000个。如此庞大和丰富的数据库内容为我们进行基因基本信息的查找提供了极大的便利。

在利用数据库进行查询和检索之前,首先我们必须简单了解一下生物数据库的查询系统。

一般,查询多采用字符匹配查询,其基本过程可简单描述为:输入特定的查询字符后,数据库中的注释信息若含有与输入字符相匹配的记录,则运行查询程序将含有这类记录的数据列出。一般的数据库都具有相应的查询程序。SRS和Entrez是两个功能强大且应用广泛的生物信息数据库查询系统。

SRS(sequence retrieval system)查询系统是20世纪90年代初由EMBL的Thure Etzold博士带领的课题组创建的,是一个功能强大的数据库整合平台,可进行数据库集成、序列查询、序列处理等工作。目前,欧洲的EMBL-Bank和日本的DDBJ数据库都采用SRS查询系统。除此之外,世界各地多个研究机构或高校的相关网站,包括中国的微生物信息网、北京大学生物信息研究中心、上海生命科学研究院生物信息中心网站都使用SRS查询系统。

Entrez是NCBI网站的数据库查询系统,它集成了文献数据库、核酸序列数据库、结构数据库、基因图谱数据库,是有效利用NCBI数据库资源的工具。与SRS相比,Entrez是单一数据库查询,不能同时跨库检索,并且限制查询范围的条件比SRS少,但Entrez的查询速度较快,且有多个链接,可方便地链接到其他的数据库,其网上版本的更新也很快。

举例:在NCBI中用Entrez系统在GeneBank数据库中查询人的3-磷酸甘油醛脱氢酶(glyceraldehyde-3-phosphate dehydrogenase,GAPDH)的核酸序列。

登陆NCBI网站(http://www.ncbi.nlm.nih.gov),如图5-1所示。

在“Popular Resources”中直接选择“Nucleotide”,在检索框中输入“GAPDH AND Homo sapiens”,即可得到检索结果。

浏览检索结果,从中查找与Homo sapiens glyceraldehyde-3-phosphate dehydrogenase(GAPDH)相关的检索结果。根据实验目的,选择mRNA(实验中欲得到该基因的编码序列)或whole genome(全基因组,实验中欲得到该基因的全部DNA序列)序列。在此,我们以mRNA序列为例。如图5-2所示,第28个检索结果为我们期望的结果。

点击相应的检索结果,则可显示GAPDH的有关信息(图5-3)。图5-3中有关术语的意义,在表5-1中说明。

图5-1 NCBI网站主页

图5-2 GAPDH的第28个检索结果

图5-3 GAPDH的详细信息

表5-1 GAPDH查询结果中关于术语的意义说明

需要注意的是,虽然我们检索到的是mRNA的序列,但在Origin给出序列时,RNA中的U被T代替,表面上它给出的是DNA序列,实际上仍是mRNA的序列。但我们在实验中扩增该基因时,一般的过程是提取RNA后,反转录(逆转录)为cDNA双链或单链,反转录后的序列即与给出的序列互补(cDNA第一链)或一致(cDNA第二链)了。所以在扩增该基因时,可以直接以此序列来设计引物。

二、引物设计——Primer Premier

搜索到感兴趣目的基因的基本信息,包括表达种属、高表达的组织细胞部位、核酸序列后,下一步可能我们需要将它从表达该基因的组织细胞中提取出来。在已知核酸序列的情况下,获得目的基因最简单的方法莫过于PCR扩增了。PCR技术是分子生物学实验中广泛使用的基本技术。在进行PCR实验时,设计合适的PCR引物是实验成功的重要一环。因此,PCR引物设计也是分子生物学实验的基本技能之一。PCR引物设计是非常成熟的分子生物学技术之一,需要遵守一套非常严谨和实用的引物设计规则。根据这一规则开发了许多引物设计软件,只需根据引物设计规则进行选择,就可得到理想的PCR扩增引物。但在自己动手设计PCR引物前,强烈建议首先查阅相关文献,采用正式发表文献中报道的目的基因的扩增引物,也可参考一些生物信息学网站提供的目的基因PCR引物,但无论是自己设计、相关技术网站推荐,还是采用文献中报道的引物,在正式提交引物序列进行合成之前,一定要先进行BLAST分析,以确定该引物扩增的是你感兴趣的目的基因,以及确实扩增到你下一步实验需要的序列区域。另外,提交引物序列进行合成时,一定要注意引物序列的方向性,无论上下游引物,在不标注5'、3'末端时,将序列从左到右默认为是从5'-3'。

目前可用的PCR引物设计软件很多,包括Primer Premier、Oligo 6.0、Vector NTI Suit、Dnasis、Dnastar、Primer3等,应用广泛且深受欢迎的主要是Primer Premier 5。使用的基本过程简述如下。

举例:利用Primer Premier 5软件设计GAPDH基因的扩增引物。

方法和步骤:

1.从NCBI的数据库查出GAPDH的基因序列并存为plain text记事本格式。

2.下载并安装Primer Premier 5。

3.运行Primer Premier 5,打开GAPDH的基因序列,显示双链格式。

4.进行primer search,根据引物设计基本要求及实验的具体情况,设置包括引物扩增范围、长度、GC含量、退火温度范围等相应参数,找出引物的“正义链”(sense)和“反义链”(antisense)及最合适的引物对(pairs)。

5.下载并安装Oligo 6.0,评价设计的引物。

6.选出的primer序列针对人的全基因组进行BLAST同源比对搜索,以剔除非特异结合的引物序列。

另外,在Internet上还有许多很不错的引物在线设计网站,如斯坦福大学的http:// seq.yeastgenome.org/cgi-bin/web-primer,只需将欲设计的目的基因的代码或序列输入查询框,提交(submit)后选择合适的PCR引物参数即可,如图5-5所示。

图5-4 利用primer_BLAST进行PCR引物设计

图5-5 斯坦福大学开发的在线PCR引物设计

三、序列比对——BLAST

BLAST(basic local alignment search tool) 是基于Altschul等人在J. Mol. Biol上发表的方法[J. Mol. Biol, 215:403-410(1990)]开发的一套在蛋白质数据库或核酸数据库中进行相似性比较的分析工具,可以对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对,还能发现具有缺口的能比对上的序列。它能迅速与公开数据库进行相似性序列比较,以得分大小对相似性的程度进行统计说明。

我们可以用Blast工具来进行序列比对,以确认欲研究的目的基因经克隆、扩增、质粒提取和测序后,得到的是否是感兴趣的基因序列,有无序列错误,尤其在后续需进行基因表达时更是如此。此外,还可用BLAST工具来检验PCR引物的特异性。

BLAST工具包含了5种基本的序列比对功能。

(1)BLASTP:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

(2)BLASTX:是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(1条核酸序列会被翻译成可能的6条蛋白),再对每一条作一对一的蛋白序列比对。

(3)BLASTN:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一的核酸序列比对。

(4)TBLASTN:是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再与所查序列作蛋白与蛋白的比对。

(5)TBLASTX:是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。

通常根据查询序列的类型(蛋白或核酸)来决定选用何种BLAST。假如是作核酸-核酸查询,通常默认为BLASTN。

我们以上述GeneBank中查询到的GAPDH序列为例,利用NCBI中Blast来进行序列比对、检验引物特异性。具体操作如下。

1.登录http://www.ncbi.nlm.nih.gov/BLAST/,打开BLAST 页面(图5-6)。

从图5-6可以看出,页面主体包括了3部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST,可以认为这是3种序列比对的方法,或者说是BLAST的3条途径。

(1)BLAST Assembled Genomes:选择要比对的物种,点击相应物种之后即可进入比对页面。

(2)Basic BLAST:包含了5 个常用的BLAST,选择要进行比对的数据库后即可进入比对页面。

(3)Specialized BLAST:是一些有特殊目的的BLAST,如Primer-BLAST、gene expression profiles(GEO)、SNPs(snp)、immunoglobulins(IgBLAST)、conserved domains等,可以根据目的进行查询。

图5-6 BLAST的检索页面

下面以最基本的核酸序列比对来介绍一下BLAST 的使用。

2.点击Basic BLAST 部分的nucleotide BLAST,检索页面如图5-7所示。

一项中输入欲比对的序列,可以直接把序列粘贴进去,也可以上传序列,还可以选择要比对的序列的范围(“Query subrange”选项,留空就表示要比对输入的整个序列)。在Job Title 部分还可以为本次比对命一个名字。之后选择物种(Choose Search Set)或序列种类(genome DNA、mRNA 等)。在网页的最下面还有一个“Algorithm parameters”(参数设置)选项,一般用户使用不到此项,所以它比较隐蔽,建议非专业人员不要更改,直接默认即可。最后点击网页最下面的BLAST 按钮即可出现结果页面 (图5-8)。

图5-7 nucleotide BLAST的检索页面

图5-8 Blast 的检索结果页面

Blast检索结果页面的信息含量非常大,大体上包括4个部分。

1.所询问和比对序列的简单信息

(1)询问序列的简单信息——名称、描述、分子类型、序列长度。

(2)所比对数据库的名称、描述和所用程序。

2.Graphic Summary——blast结果图形显示 相似度颜色图:以黑、蓝、绿、粉红、红各个颜色表示比对的相似度(黑、蓝、绿、粉红、红,相似度由低到高)。将鼠标移至某一个具体的区域,会显示出该区域所代表的比对结果(序列相似的基因)。

3.Descriptions——blast结果描述区

(1)与其他数据库的链接。

(2)描述以表格的形式呈现(以匹配分值从大到小排序),表头的意义如表5-2所示。

表5-2 Blast 检索结果的说明

4.Alignments——各序列blast的详细比对结果 数据库中不同序列比对的详细结果,每一个结果大体上包括3部分。

(1)所比对序列的名称、简单描述、长度,到其他数据库的链接。

(2)比对结果的5个数值,意义如表5-3所示。

表5-3 Blast检索结果的详细说明

(3)输入序列和库中对比到的序列每个碱基的详细对比。

根据Blast检索结果所提供的信息,我们即可以对查询序列的基本性质、种属、登录号等有一个详细和确切的认识,可以利用这些信息来确认查询序列是否是欲研究的序列;得到的查询序列的完整性和准确性如何;若是进行PCR引物特异性分析,则可根据Blast结果,判断该PCR引物扩增序列的特异性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈