【1.3】平均核苷酸一致性-ANI

DDH(DNA-DNA hybridization)作为基因组水平上的原核物种界定的黄金标准已经被使用了将近50年。它作为唯一的提供数字化和相对稳定物种界定的分类学方法,它对现在的分类方法有着重要的影响地位。但是,现在的基因组学时代,DDH显得有点过时了。两个基因组间ANI(average nucleotide identity)由于最能反映DDH,是一种不错的分类的方法。JSpecies是一个计算俩俩基因组间的ANI和四核苷酸多态性的工具。

物种的概念大概由2,400年前的 Aristotle(亚里士多德)提出来的,自此之后,各个学科的分类学家就想对自然界中的生物学单位进行分类。最早对原核生物的分类是基于表型的相似性,但在1960年后,一些基于基因组的方法被采用来衡量基因组的相关性。在这些方法中,DDH技术用于反应基因组的相似性被广泛接受。DDH值为70%以上的时候就能反映出基因组类型的一致性【5】。不同方法的比较发现,70%不能作为分类的唯一指标,有的60%-70%就已经有很好的分类效果了【6】.

尽管DDH已经被认为原核生物分类的黄金标准,但是由于它操作的复杂性和耗时性,往往被一些生物学家所诟病【7】。同时,由于DDH的结果不能用于累积的数据库,这在生物信息学时代也是一个硬伤。所以,科学家们提出了要有一种方法来取代DDH,这种方法要能够跟DDH有相似的效果,同时也要能够建立一个数据库利于其他一些结果跟他的比较【4】。

16srRNA基因作为一个标记基因用于物种的分类起到了很好的作用,但这个保守基因的方法在对如此大的分类学上的规模还是显得有点乏力。同时,基于housekeeping 基因的分类也在取代DDH起到了一定的效果,但是这个方法的硬伤在于基因选择性和扩增引物的适应性【10】. ANI,基于俩俩基因组的所有直系同源蛋白编码基因的比较的一个平均值,得到的值的94%相当于DDH的值的70%。【12】

ANI和percentage of covnserved DNA的算法

俩俩序列,其中作为query的那条序列连续性切割为1020nt的片段。这些cut-offs(1020bp的片段)然后reference序列通过blastn比对,比对的结果保留下来用于接下来的计算。比对的参数设置X=150 ( where X is the drop-off value for gapped alignment), q=-1 (where q is the penalty for nucleotide mismatch) and F=F (where F is the filter for repeated sequences); the rest of the parameters were used at the default settings.参数这样设置是为了距离比较远的基因组更好的比对上。

covnserved DNA比例:那些比对的结果阈值达到90%的核苷酸相似度被保留,regardless of the extent of the alignable region。比对上的序列的长度之和除以query序列的总长度,就算是query序列中有所少比例的序列在refrence 序列中保守。

ANI:就是query序列和reference序列的blastn结果的平均identity值,这些blastn结果需要是more than 30% overall sequence identity (recalculated to an identity along the entire sequence) over an alignable region of at least 70% of their length(没理解额)。This cut-off is above the ‘twilight zone’ of similarity searches in which an inference of homology is error prone because of low levels of similarity between aligned sequences (Rost, 1999; Sander & Schneider, 1991). Therefore we can assume that only homologous DNA fragments were considered in our calculations.

Query序列和reference序列互换就能得到另一组结果,但貌似这两个结果还是比较相近的。 70%的DDH,95%的ANI,69%的conserved,作为分类大致标准【12】。

还有一种计算ANI的方法是基于俩俩序列的共同的同源蛋白编码基因的identity的平均值【11】,不过两种方法的结果相似。我个人觉得应该是【12】中的阈值对结果的作用。

参考资料:

文献 Shifting the genomic gold standard for the prokaryotic species definition

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn