【5.2.1.7】蛋白分类--UProC

UProC: ultrafast protein classification

官网: http://uproc.gobics.de/

随着生物序列数据量的迅速增加,新序列在与已知蛋白质家族的相似性方面的功能分析挑战了经典的生物信息学。 超快蛋白质分类 (UProC) 工具箱实现了一种用于大规模序列分析的新算法(“马赛克匹配,Mosaic Matching”),现在可用于开源 C 库。

  • UProC 比基于配置文件的方法快三个数量级,并且对来自模拟宏基因组的未组装短读段 (100 bp) 的灵敏度提高了 80%,UProC 不依赖于家族特定序列的多重比对。
  • 因此,除了根据 Pfam 数据库进行蛋白质域分类外,UProC 原则上还可以提供 KEGG Orthologs 的检测。
  • 我们为 KEGG Ortholog 分类提供了一个预编译的数据库,我们将其应用于从短读长中预测功能库(见下文)。

一、安装

二、使用

三、原理

UproC 中的蛋白质序列分类基于一种我们称为“马赛克匹配 Mosaic Matching ”的新算法。该算法首先将查询序列中的寡肽(“词”)基于相似性分配给数据库中的蛋白质家族。与计算短词出现次数的基于k聚体的方法相比,在 UProC 中,长词 ( k  = 18) 根据它们与数据库中“相邻”词的相似性进行评分和分类。单词的邻域由最长公共前缀 (LCP) 标准确定。最后,将匹配同一家族的所有寡肽组合起来,为整个查询序列的分类提供具有共同相似度分数的马赛克匹配。图1 显示了 UProC 分类方案的概述,下面详细描述了实现的所有元素。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn