第一节 生物信息学方法
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。具体说就是从核酸和蛋白质的序列出发,分析序列中表达结构和功能的生物信息,其研究的目标在于揭示“基因组信息结构的复杂性及遗传语言的基本规律”。
生物信息学的主要研究内容,包括生物信息数据库分类、生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等基本知识。
在生物学的各个学科领域,生物信息学都发挥着重要的作用。现以拟南芥某一基因为例,讲解如何利用常用网站中的生物信息学知识,为探索基因在发育中的功能奠定基础。
图3-1是拟南芥研究中常用的网站http://www.arabidopsis.org。将待研究的基因编号或者基因名称填写在图3-1方框的位置,然后进行检索。
然后点击该基因的编码,进入网站中此基因的信息中心。图3-2显示了该基因的一些基本情况,如基因的大小、编码蛋白质的大小和其上可能的一些结构域,还有该基因突变体的相关信息等。
点击“sequence viewer”进入基因序列信息网页,如图3-3所
图3-1 输入基因编号后进入的基因信息网页
图3-2 点击基因序列号后进入基因的详细资料网页
示。在该网页中,目的基因被标注,可以通过进一步的点击相关信息获得有关该基因的详细资料,如序列(图3-4)等。
图3-3 点击基因的“sequence view”,进入基因在染色体位置的信息网页
图3-4 点击“nucleotide seq view”进入基因序列网页
在图3-2中点击突变体信息网页(图3-5),其中包含着许多信息,包括该突变体是利用T-DNA插入方式获得的,并列出了T-DNA插入位置的侧翼DNA序列。
图3-5 突变体信息网页
此外,进入网站http://signal.salk.edu/cgi-bin/tdnaexpress,可以查找基因突变体及插入方向(图3-6)。在方框中输入目的基因的编码,即可获得某个基因的突变体信息(图3-7)。
在这张网页中包含着该基因的若干个突变体在目的基因上的位置和插入方向。
上面列出的是拟南芥中一个已知基因序列号的基因,显示的是如何利用生物信息学获得相关知识的方法。下面列出的是对一段仅知道碱基序列的DNA如何进行分析的方法。对于未知的DNA序列的生物信息学分析一般首先利用NCBI网站(http://
图3-6 输入基因号进行突变体及其插入方向的搜索
图3-7 某个基因的突变体信息
www.ncbi.nlm.nih.gov/)进行检索,获得一定的信息。该网站提供如下服务: PubMed、PubMed Central、Bookshelf、BLAST、Gene、Nucleotide、Protein、GEO、Conserved Domains、Structure、Pub-Chem。
(1)首先将DNA序列在NCBI网站的“blast”功能区进行比对,分析是否与已知的DNA序列同源;
(2)利用网站寻找ORF功能,分析是否编码蛋白质;
(3)分析编码的蛋白质是否有特殊的结构域;
(4)编码的蛋白质结构特征的分析;
(5)重要的是查找该DNA片段的功能是否已经有相应的论文报道。
NCBI网站是生物学工作者经常使用的信息网站,以功能强大著称。除了这一网站外,下面列出了一些常用的其他生物学网站。
1.http://www.bionavigator. com,提供查找核酸的酶切位点、motif、开读框等搜索、PCR引物设计、二级结构预测、多序列比较及分子进化树构建等服务;蛋白分析则包括酶切图谱、功能区搜索、分子进化分析、蛋白二级结构预测等;此外还提供序列管理等功能,为收费网站。
2.ExPASy: http://www.expasy. ch/tools/,提供蛋白质分析。有较多的蛋白质分析工具,包括分子量、亲疏水性、表面积、二级结构、与SW ISS-PROT数据库收录分子同源性比较、极性、折射率等分析。
3. SignalP: http://www.cbs.dtu.dk/services/SignalP/,信号肽预测服务器,它的功能是预测给定的氨基酸序列中是否存在潜在的信号肽剪切位点及其所在,原核生物和真核生物都可以进行预测。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。