【4.2】RAST自动注释微生物基因组

一、简介

官网网址:http://rast.nmpdr.org/

RAST(利用Subsystem技术快速注释工具,Rapid Annotation using Subsystem Technology),一个针对完整的或将近完整(draft genome or complete genome)的细菌和古菌基因组注释工具。它可以用来预测orf,Rrna,Trna,以及相应的功能基因,并可以利用这些信息构建代谢网络。

RAST的准确性,一致性和完整性是基于两个数据库:人工矫正的Subsystems库和关于蛋白的库(FIGfams)。它的注释出来的数据主要分为两块:基于Subsystems库注释(相当于跟库里面的功能基因比对,而它的数据里面现在包含58 Archaea, 963 Bacteria, 562 Eukaryota, 1254 Plasmids and 1713 Viruse),不基于Subsystem库的注释(借助其他的工具来分析???难道是序列的一致性?),当然在利用注释信息构建代谢网络的时候为了更准确些,我们往往会更多的用基于Subsystems库注释(subsystem-based assertions)。

通过邮箱申请一个帐号即可上传你的contigs的fasta数据,注释完了后会发邮件给你,你的注释结果将或保留120天,你也可以申请将注释的结果加入到SEED中去。

二、结果说明

自动注释出来的结果包含的信息量是比较大的:

  1. 根据比对的信息,你可以看到数据库中离他最近的物种是啥(View closest neighbors),以及你上传序列的基本信息(大小,contigs数,匹配的subsystems数,orf,rna数目)
  2. 功能注释后所列出的一张饼图,各个相应的功能所占的比例
  3. 除了能注释出功能基因,然后做一个简单的代谢网络以外,还可以通过SEED模块将上传的基因组跟其他的基因组比较(这个功能牛逼).比较的对象可以是你上传的比较,也可以是是和他数据库相应的基因组比较,而这个基因组的比较可以包括function based, sequence based或者KEGG. 甚至你可以用其他的序列来跟它比对。
  4. 注释的内容可以下载,下载的格式可以为GenBank,FASTA,gff3,excel,也可以重新修改参数再上传自动注释。

三、分析流程

RAST分析的大致步骤:

1.寻找tRNA和rRNA

tRNA通过tRNAscan-SE来寻找,rRNA则可以search_for_rnas来寻找。因为现在有的蛋白数据库会预测出来的Orf有的跟rRNA序列非常相似,所以我们在第一步就先找出RNA序列,然后再对剩下的序列进行预测Orf。

2.预测Orf

用GLIMMER2来预测Orf(protein-encoding genes)

3.寻找相近的基因组是(establishing phylogenetic context)

利用FIGfams数据库的几个具有代表性的通用蛋白建立一个索引,快速去比对上传的基因组,根据比对上具有代表性的信息来估计离上传的基因组最近的物种,

4.用相近的基因组来比对

一旦找到了相近的基因组,就可以根据这些相近的基因组来建立FIGfams的一个小库,而这个小库里面的FIGfams蛋白将在上传的基因组中去寻找,一旦在上传的基因组中找到相应的某个基因,则把这个基于提出来放在已知的一组中,剩下的继续寻找,直到这个小库中的蛋白在上传的基因组中找不到相应的基于为止。

5.recall protein-encoding genes

用上面一步通过上传基因组建立的已知基因来recall相应的基因组(???这一步没搞明白它到底想干什么?)

6.剩下的Orf来跟整个FIGfams数据库比对

跟相近的基因组比对后,上传的基因组还是有一部分Orf匹配不上,是未知的,所以需要拿这些剩下的未知的来跟整个FIGfams数据库比对。(之前的这些步骤算是缩小范围来节省时间了。)

7.最后的Orf 跟nr比对

最后无法比对上FIGfams数据的预测基因(这些基于可能因为overlapping gene calls ,starting position的缘故),所以将这些基因跟nr数据库比对,相似性高的就注释出来。

8.建立代谢网络

功能注释一旦结束,一个初略的代谢网络就被建立了,也就是将上传基因组中的基因跟subsystems中功能角色对应起来。

四、上传数据:

上传的数据仅仅接受FASTA或者GenBank格式

taxonomy ID:(如果不知道可以不填,也可以根据物种名在这个网址上得到ID号http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/)

输入正确的ID后,下面会自动出来种属,如果不知道ID,也找不到ID,则下面的种属需要人为的来填写,来生成一个虚拟的ID号。

  • Genetic code:大多数的细菌都用11(具体说明 http://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi),但是支原体,螺原体,ureoplasmaea,真菌线粒体。
  • Select gene caller:基因预测,有RAST和GLIMMER-3两种方式。如果选择GLIMMER-3的话,将不会自动修复错误,阅读框转移修正,补填gaps.
  • Select FIGfam version for this runz:默认的是59,最新的是70,如果最新的是最好的,为什么还有这个选择的选项呢。
  • Automatically fix errors
  • Fix frameshifts
  • Build metabolic model
  • Backfill gaps
  • Turn on debug ?
  • set verbose level 设置处理数据中的报告级,分为详细的报告还是只是报告错误之类的。
  • Disable replication 是否允许去除duplication。很多时候是不需要删掉的。比如在RNA的时候,实际上,任何需要计 算丰度的时候都不能删掉。当然dup的比例太大的时候,那就另当别论了

最后上传,8-12小时结束注释后会给你发邮件。

五、其他

FIGfams

RAST是基于Subsystem和FIGfams两个数据库来工作的。构建的FIGfams是相对来说比较保守的,两个蛋白放在一个分类上需要确保他们的功能相似,如果功能不一样,就会放在不同的分类上,而两个蛋白放在一个分类上可以基于两种情况:1如果他们俩同时在Subsystem数据库的分类中出现,且两者相似度达到70%以上;2,如果他们来自两个非常相似的基因组(相似度达到90%以上),且这两条序列在相应基因组中的位置关系差不过,也可把他们归为一类。FIGfams中有17,000个基于Subsystem的核心蛋白,还有80,000个则是基于上面的第二种思路得到的。

model seed

在用RAST注释的时候,会有一个选项,是build metabolic model,选择是,在注释结束之后,你看结果会有

» Browse annotated genome in SEED Viewer
» View metabolic model

这两个选项,选择View metabolic model,你就会进入model seed模式,那么model seed 到底是个什么东西呢?

Model seed(http://www.theseed.org/models/)跟已有的kegg,metacyc不一样,他们主要集中于基因功能,代谢反应和代谢通路的归类,而model seed的功能代谢模型不仅是呈现代谢通路,而且预测这些代谢通路如何被每个物种所支配的。

因为这个模型是基于SEED的注释结果来建立的,所以叫model seed,同时,又因为有一些步骤还需要后续的手工修改,所以我们说得到的结果叫draft models.

小试了一下这个工具,有一个比较适用的就是可以用不同基因组放在一起来比较,在KEGG图中,可以用不同的颜色来表示不同的基因组的信息,这样就比较清晰的看到在同一条代谢途径中这两个基因组功能基因的差异额。

参考资料:

Ps:首先感谢QQ好友哈皮对我这篇博文的指点。

 那什么是Subsystem技术?还有那个该死的SEED又是啥捏?慢慢看文献理解吧。
药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn