【4.5.1】宏基因组基因识别--pGlimmer-MG

官网: http://ccb.jhu.edu/software/glimmer/index.shtml 代码: https://github.com/davek44/Glimmer-MG

Glimmer-MG 是一种在环境鸟枪 DNA 序列中寻找基因的系统。 Glimmer-MG (Gene Locator and Interpolated Markov ModelER - MetaGenomics) 使用内插马尔可夫模型 (IMM) 来识别编码区并将它们与非编码 DNA 区分开来。在我们关于 Glimmer 1.0 的核酸研究论文和我们随后关于 Glimmer 2.0 的论文中描述了 IMM 方法,它使用从一阶到八阶的马尔可夫模型的组合,根据其预测能力对每个模型进行加权。 Glimmer 在其 IMM 中使用 3 周期非齐次马尔可夫模型。

Glimmer-MG 解决了宏基因组学基因预测的挑战。预测模型训练是 Glimmer3 不能应用于宏基因组序列的主要原因。 Glimmer-MG 不是依靠 GC% 来寻找进化相关基因组进行训练,而是使用 Phymm 找到系统发育分类,并使用这些分类参数化基因预测模型。 Glimmer-MG 还使用 Scimm 对序列进行聚类,将可能来自同一生物体的序列组合在一起。类似于对整个基因组有用的迭代方案,Glimmer-MG 在进行最终的一组预测之前,根据初始基因预测重新训练每个簇内的预测模型。为了解释碎片化的基因,Glimmer-MG 结合了一个基因长度模型,其中部分基因被仔细处理。最后,Glimmer-MG 可以通过在低质量碱基调用(例如在 454 个序列中运行均聚物)分支到不同的框架来预测序列中的插入和缺失。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn