【4.6.1】高通量短读开放阅读框预测--FragGeneScan-Plus

软件路径: https://github.com/hallamlab/FragGeneScanPlus

Dongjae Kim、Aria S. Hahn、Shang-Ju Wu、Niels W. Hanson、Kishori M. Konwar 和 Steven J. Hallam

环境序列信息分析的一个基本步骤是预测编码单个细胞和整个微生物群落代谢潜力的潜在基因或开放阅读框 (ORF)。

FragGeneScan 是一种旨在预测短测序读数上完整和不完整 ORF 的软件,结合了隐藏马尔可夫模型中的密码子使用偏差、测序错误模型和起始/终止密码子模式,以从给定的输入序列中找到最可能的隐藏状态路径,提供在具有不完整组装的环境数据集中进行基因恢复的有希望的途径。

然而,当前 FragGeneScan 的实现不能随着输入数据大小的增加而有效地扩展。这限制了 FragGeneScan 对可能超过 100 Gb 的当代环境数据集的应用。在这里,我们展示了 FragGeneScan-Plus,它是 FragGeneScan 基因预测模型的改进实现,它利用算法线程同步和高效的内存中数据管理来利用多个 CPU 内核而不会阻塞 I/O 操作。 FragGeneScan-Plus 处理数据的速度比使用单核的 FragGeneScan 快约 5 倍,使用 8 个超线程核的数据处理速度比使用不同复杂性的模拟和现实世界环境数据集快约 50 倍。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn