【5.1】基因组学和宏基因组学的测序模拟器--MetaSim

MetaSim – 我们的软件可用于生成反映典型宏基因组数据集多样化分类组成的合成读取集合。

  • 用户可以从当前测序技术(例如 Sanger [28]、[29]、Roche’s 454 [7]和 Illumina(前 Solexa)[30])的不同(适应性)错误模型中进行选择。
  • MetaSim 允许构建可验证的读取数据集,此外,宏基因组的大小、分类组成和丰度可变,以反映真实宏基因组研究的多样化和复杂输出。
  • 代码: http://www-ab.informatik.uni-tuebingen.de/software/metasim

背景介绍

宏基因组研究的主要目标是

  1. 研究样本的系统发育组成(分类分类,“谁在那里”)、
  2. 定量分析(“那里有多少?”)
  3. 基因及其功能的预测(功能分箱,“他们在做什么”)。

分类分箱的常见策略例如:

  1. 检测系统发育标记,如rRNA、RecA、热休克蛋白 ( HSP70 ) 和延伸因子 ( EF-Tu、EF-G ) [11],
  2. 将读数与参考进行比较数据库,如 NCBI-nr [12],然后分析匹配以将读数放入 NCBI 分类法[13]
  3. 测量由密码子使用或限制位点频率引起的寡核苷酸频率[14] - [18]。

在功能分箱方面,将序列与多个数据库提供的已知蛋白质功能、家族和途径进行比较,例如 COG、KEGG、PFAM、SEED、STRING 和 TIGRFAM [19] – [24]。从头搜索(未知)的功能单元如果任一长读取或重叠群可用于检测的开放阅读框的是唯一可行的

MetaSim 的处理流水线由几个阶段组成:

  1. 从内部数据库中选择源基因组序列
  2. 通过设置基因组序列的相对拷贝数配置物种丰度图谱
  3. 根据物种丰度谱对片段进行采样测序
  4. 将特定技术错误模型应用于片段以创建测序读数

参考资料

  • MetaSim—A Sequencing Simulator for Genomics and Metagenomics。 我们的软件可用于生成反映典型宏基因组数据集多样化分类组成的合成读取集合。

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0003373

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn