【1.2】TNF四核苷酸多态性-TETRA

May 26, 2015 Bin 阅读量：次

下载地址: http://www.megx.net/tetra/html/download.html

安装：biolinux系统自带这个软件，所以就省去了安装的步骤。

一、概念

计算DNA序列四核苷酸多态性的概率,并通过比较不同DNA序列四核苷酸多态性相关性,从而来推测DNA序列的相关性.

原理：

在不同微生物的DNA中,短的寡核苷酸并不是均一的分布的,有的比例多一些,有的比例少一些,呈现出物种特异性的模型.这些模型就像指纹,蕴含着系统发生的标志.换句话说,相近物种的DNA序列一般都会拥有相似寡核苷酸概率的模型,而不相似的物种则不一样.TETRA仅仅针对四核苷酸的统计.基于马尔可夫模型,对上传的DNA序列的碱基的256种四核苷酸概率进行计算.这些数据然后转化为z值，并计算出他们的相关性。

用户：

这个软件是针对宏基因组数据的分析而产生的。在分析宏基因组的过程中，没有标记基因的那些不同微生物基因片段无法给他们聚类。而GC汗来那个，对基因片段的分析（密码子使用性，BLAST hists）,四核苷酸相关系数能够给我们提供片段是否相关的依据。

可信度：

在大多数情况下，四核苷酸概率模型会比GC比例在聚类基因组DNA更准确一些。但作为基于序列信息（sequence-based）的方法，四核苷酸概率模型（tetranucleotide usage patterns）也有他的局限性 :

这个方法不适合处理高多态性的基因组，因为这样的基因组不同片段具有不均一的四核苷酸概率。（就是有的物种不适合呗）
DNA序列四核苷酸概率模型是对整个序列的全局统计，然后在不同位置上大概也会出现这么个现象，所以，序列越长越能代表整体，越正确。尽管特殊的四核苷酸概率模型可以通过先进的方法从小于1kb的序列中获得，但是具有统计学概率，序列长度至少要20kb,
作为sequences-based方法，统计的那个片段如果发生基因水平转移的话，这个结果也是会受到影响的。

Z值和p值

通过统计可以得知序列DNA的256种四核苷酸排列的概率（observed值），通过马尔可夫模型我们预测出相应的四核苷酸排列的概率（except值），用这两个值就可以计算出每个四核苷酸相应的Z值。

N(n1n2n3n4)是我们计算某种四核苷酸概率得到的值，而对应的期望值（计算期望值的这个公式则是来源于马尔可夫模型）则为：

$$ E_{n1n2n3n4} = { \frac{N_{n1n2n3}N_{n2n3n4}}{ N_{n2n3} } } $$

Z值计算的公式为：

$$ Z_{n1n2n3n4} = {\frac{ N_{n1n2n3n4} - E_{n1n2n3n4} } { \sqrt{var\left(N\left(n1n2n3n4\right)\right)} } }$$

Var值计算如下：

详细的说明请见相应的文献：Schbath, S., Prum, B., and de Turckheim. E. (1995) Exceptional motifs in different Markov chain models for a statistical analysis of DNA sequences. J Comput Biol 2: 417–437. p值是俩俩序列比较相似性的时候，统计256个z值的皮尔逊相关系数得到的一个值，介于0到1之间，值越大，说明相关性越强。

TETRA仅仅用来观测基因片段见的相关性，不能用来推测进化关系。同时它要求序列越长越好，进化距离远的不同种属有时聚类效果不是太好。

参考资料:

官网 http://www.megx.net/tetra/index.html

文献： Teeling, H., Meyerdierks, A., Bauer, M., Amann, R. & Glöckner, F.O. (2004) Application of tetranucleotide frequencies for the assignment of genomic fragments. Environ Microbiol 6: 938-947

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn