【摘要】:核酸序列作为一种遗传语言,可用信息论方法去研究[3]。一阶信息冗余D1描述序列中碱基分布相对于随机等概率分布的偏离,二阶信息冗余D2描述序列中碱基关联相对于独立序列的偏离。二阶信息冗余D2可推广为已有的研究得出了核苷酸关联的短程为主性[4,5]的结论,由于短程关联特别是紧邻关联是核苷酸关联的主要部分,所以编码序列的碱基关联可近似用D2描述。本章选择这四个参量来探讨mRNA序列对蛋白质折叠速率的影响。
核酸序列作为一种遗传语言,可用信息论方法去研究[3]。令序列中碱基i的出现概率为pi(i=A,G,C,T),一对碱基i,j出现在相邻位点的联合概率为pij,有
pij=pipj/i(3-2)
式中,pj/i为碱基i后出现碱基j的条件概率。引入信息熵H和一阶信息冗余D1:
引入马尔可夫熵HM和二阶信息冗余D2:
式中,pj/i*为碱基i下游空一位后碱基j出现的概率。一阶信息冗余D1描述序列中碱基分布相对于随机等概率分布的偏离,二阶信息冗余D2描述序列中碱基关联相对于独立序列的偏离。二阶信息冗余D2可推广为
式中,pi(k)j为相距为k的非紧邻碱基联合概率。
已有的研究得出了核苷酸关联的短程为主性[4,5]的结论,由于短程关联特别是紧邻关联是核苷酸关联的主要部分,所以编码序列的碱基关联可近似用D2描述。D2描述遗传语言的语法结构,D1描述遗传语言的词汇组成,罗辽复先生的研究小组还引入另外两个衍生的基本信息参量CGC与X[X=D2/(D1+D2)],CGC描述碱基组成中强健成分的含量,X同时描述碱基组成和紧邻关联两个方面。研究发现以上四个参量能很好地反映核苷酸序列特征,而且它们与进化有很好的相关性[6-8]:D1有随进化下降的趋势,D2有较好的随进化增加的相关性,X与F的变化趋势和D2相似。本章选择这四个参量来探讨mRNA序列对蛋白质折叠速率的影响。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。