【3.1.4】MAFFT多重序列比

一提到多重序列比对,很多人禁不住就想到ClustalW(Clustalx为ClustalW的GUI版),其实有一款多重序列比对软件-MAFFT,不论从比对速度(Muscle>MAFFT>ClustalW>T-Coffee),还是比对准确性(MAFFT>Muscle>T-Coffee>ClustalW)来说,其相比于ClustalW(或ClustalX)有过之而无不及,所以这里强烈推荐使用MAFFT这款多重比对软件。

一、安装

二、使用示例

该软件的基本用法如下

mafft  input > output

input为fasta格式的输入序列文件,output为fasta格式的输出结果文件。mafft 支持核酸和蛋白序列的多序列比对,内置了多种序列比对算法, 可以分为以下3大类别

  1. consistency based methods
  2. iterative refinment methods
  3. progressive methods

这三种类别的算法在准确度和速度上各有优势,对于运行速度而言,3>2>1;对于准确度而言,1>2>3。

2.1 consistency based methods

L-INS-I(最准确的方法。适合小于200条,且长度小于2000aa/nt的序列。)

mafft --maxiterate 1000 --localpair input > output

G-INS-I(适合序列长度相似的比对,小于200条,且长度小于2000aa/nt的序列。)

mafft --maxiterate 1000 --globalpair input > output

E-INS-I(适合序列仲包含较大的非匹配区域,小于200条,且长度小于2000aa/nt的序列。)

mafft --maxiterate 1000 --genafpair input > output

运行后的结果如下图。按照最长序列,把相应位置的aa标出来,有gap的地方,则用—补齐。

2.2 . iterative refinment methods

此类算法包含了FFT-NS-i, NW-NS-i 两种算法。

FFT-NS-i 用法如下

mafft --maxiterate 1000 input_file > output_file

NW-NS-i 用法如下

mafft --maxiterate 1000 input_file > output_file

2.3 progressive methods

此类算法包含了FFT-NS-1, FFT-NS-2 2种算法。 FFT-NS-1 用法如下

mafft --retree 1 input_file > output_file

FFT-NS-2 用法如下

mafft –retree 2 input_file > output_file

2.4 如果在比对时,不知道如何选取合适的算法,可以使用以下设置

mafft --auto input > output

软件会根据输入序列的特征,自动选择合适的算法。

2.5 输出

output的仍然是fa文件。到此,就完成了MAFFT的多序列比对了.

如果是直接导入MEGA,fa格式也是没有问题的,因为MEGA里是没有MAFFT这种比对方式的。如果是要用phy格式的话,就需要先转格式了,转格式的话,用seaView和mesquite都没有问题的,不过我是建议用seaView。

三、报错

四、讨论

4.1 比对结果渲染

五、我的案例

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn