【3.1.1】ncRNA注释--Rfam

一 Rfam 简介

Rfam 是一个数据库,用于鉴定non-coding RNAs。由多重序列比对(multiple sequence alignments)和协方差模型(covariance models,CMs)代表。Rfam的主要目的是使用敏感BLAST过滤器连同CMs,对核苷酸序列,特别是完整基因组,注释已知RNA家族的新成员。具有一个非常广泛的分类学区域的少数家族(例如,tRNA和rRNA)提供了大多数的序列注释,同时大多数Rfam家族(例如,snoRNAs和miRNAs)具有有限的分类范围,并提供了有限数目的注释。

Rfam 11版本中有包含383,004条序列和2,208个cms(即2,208个rfam家族)

其官网:http://rfam.sanger.ac.uk

其参考文献:Rfam 11.0: 10 years of RNA families。

二  Rfam 安装

说明文档

2.1 下载 rfam_scan.pl 软件

下载最新版本的 rfam_scan.pl 软件

$ cd
$ mkdir /sam/rfam
$ cd /sam/rfam
$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/rfam_scan/rfam_scan.pl
$ chmod 755 rfam_scan.pl
$ echo 'PATH=$PATH:/sam/rfam' >> ~/.bashrc
$ source ~/.bashrc

2.2 安装 infernal

rfam_scan.pl 的运行需要infernal 软件。此外还需要 Perl 5.6 及以上版本,NCBI BLAST 程序 和 Bioperl。 rfam 11 版本的rfam_scan.pl 需要安装 infernal 1.0 (1.1版本会报错):

$ wget http://selab.janelia.org/software/infernal/infernal-1.0.2.tar.gz
$ tar zxf infernal-1.0.2.tar.gz
$ cd infernal-1.0.2
$ ./configure --prefix=/sam/infernal-1.0.2 && make && make install
$ echo 'PATH=$PATH:/sam/infernal-1.0.2/bin/' >> ~/.bashrc
$ source ~/.bashrc

2.3 下载并安装 rfam 的 blast 和 cm 数据库

blast 数据库包含了所有 rfam 家族的核酸序列。并且这些序列进行以 90% 的一致性进行了去冗余处理。 cm 数据库包含了所有的rfam 家族的 covariance models。

Rfam 11 版本中包含了383,004 条序列和 2,208 个 cms(即 2,208 个 rfam 家族)。

$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/Rfam.fasta.gz
$ gzip -d Rfam.fasta.gz
$ formatdb -i Rfam.fasta -p F
$ wget ftp://ftp.sanger.ac.uk/pub/databases/Rfam/CURRENT/Rfam.cm.gz
$ gzip -d Rfam.cm.gz

三  使用Rfam

常用例子:

$ rfam_scan.pl -blastdb /sam/rfam/Rfam.fasta /sam/rfam/Rfam.cm genome.fasta -o rfam.gff3

上述例子中,软件将调用 blast 将 query 序列比对到Rfam.fasta 的 blast 数据库中,去寻找相应的 ncRNA 的相似序列,使用的 blast evalue 的阈值是 0.01 。 然后将 blast 的结果再调用 cmsearch 使用 Rfam.cm 进行验证,减少假阳性概率。如果不使用 blast,仅使用 cmsearch 则速度极慢。

由于rfam_scan.pl运行速度很慢,如果序列条数较多,基因组较大,则推荐将序列进行分割后并行运算。

Rfam release 11.0

246 new Rfam families have been added to Rfam. The majority of these new families are lncRNA and bacterial sRNAs. Counts for the new families break down into the following types:

  • 7 Cis-reg;
  • 23 Gene;
  • 1 Gene; antisense;
  • 1 Gene; antitoxin;
  • 144 Gene; lncRNA;
  • 11 Gene; miRNA;
  • 2 Gene; ribozyme;
  • 1 Gene; snRNA; snoRNA; CD-box;
  • 56 Gene; sRNA;

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn