【3.1.4】MAFFT多重序列比

September 13, 2021 Mapping 阅读量：次

一提到多重序列比对，很多人禁不住就想到ClustalW（Clustalx为ClustalW的GUI版），其实有一款多重序列比对软件-MAFFT，不论从比对速度（Muscle>MAFFT>ClustalW>T-Coffee），还是比对准确性（MAFFT>Muscle>T-Coffee>ClustalW）来说，其相比于ClustalW（或ClustalX）有过之而无不及，所以这里强烈推荐使用MAFFT这款多重比对软件。

MAFFT官方网站：http://mafft.cbrc.jp/alignment/software/
支持平台：Mac OS X 、Linux、Windows
EBI 也提供了mafft的在线服务 https://www.ebi.ac.uk/Tools/msa/mafft/

一、安装

二、使用示例

该软件的基本用法如下

mafft  input > output

input为fasta格式的输入序列文件，output为fasta格式的输出结果文件。mafft 支持核酸和蛋白序列的多序列比对，内置了多种序列比对算法，可以分为以下3大类别

consistency based methods
iterative refinment methods
progressive methods

这三种类别的算法在准确度和速度上各有优势，对于运行速度而言，3>2>1;对于准确度而言，1>2>3。

2.1 consistency based methods

L-INS-I(最准确的方法。适合小于200条，且长度小于2000aa/nt的序列。)

mafft --maxiterate 1000 --localpair input > output

G-INS-I(适合序列长度相似的比对，小于200条，且长度小于2000aa/nt的序列。)

mafft --maxiterate 1000 --globalpair input > output

E-INS-I(适合序列仲包含较大的非匹配区域，小于200条，且长度小于2000aa/nt的序列。)

mafft --maxiterate 1000 --genafpair input > output

运行后的结果如下图。按照最长序列，把相应位置的aa标出来，有gap的地方，则用—补齐。

2.2 . iterative refinment methods

此类算法包含了FFT-NS-i, NW-NS-i 两种算法。

FFT-NS-i 用法如下

mafft --maxiterate 1000 input_file > output_file

NW-NS-i 用法如下

mafft --maxiterate 1000 input_file > output_file

2.3 progressive methods

此类算法包含了FFT-NS-1, FFT-NS-2 2种算法。 FFT-NS-1 用法如下

mafft --retree 1 input_file > output_file

FFT-NS-2 用法如下

mafft –retree 2 input_file > output_file

2.4 如果在比对时，不知道如何选取合适的算法，可以使用以下设置

mafft --auto input > output

软件会根据输入序列的特征，自动选择合适的算法。

2.5 输出

output的仍然是fa文件。到此，就完成了MAFFT的多序列比对了.

如果是直接导入MEGA,fa格式也是没有问题的，因为MEGA里是没有MAFFT这种比对方式的。如果是要用phy格式的话，就需要先转格式了，转格式的话，用seaView和mesquite都没有问题的，不过我是建议用seaView。

三、报错

四、讨论

4.1 比对结果渲染

BoxShade https://embnet.vital-it.ch/software/BOX_form.html
ESPript 彩色着色，在线网址： http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi
TeXShade 自定义着色，详见日志： http://user.qzone.qq.com/58001704/blog/136788508

五、我的案例

参考资料

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn