【3.3】利用NanoPlot进行数据质控

对于二代测序,可以使用fastqc软件对数据进行全面的统计绘图。但是由于二代测序(主要指illumina)独特的特性,例如读长长度一致,有可能包含adapter和Duplication等。因此,虽然同样是fastq格式文件,但并不太适合用来处理nanopore数据,里面的一些质控指标并不适用。那么有没有类似于fastqc的软件来处理nanopore数据呢,目前看起来NanoPlot软件比较好用的nanopore数据质控软件。

一、NanoPlot 绘制质控图

NanoPlot可以用来对nanopore数据进行统计绘图,输入文件为fastq格式,绘图时需要调用NanoStat进行统计。NanoPlot利用这些统计信息进行绘图,最终会生成一个网页格式文件,包括序列读长的直方图、序列读长与序列平均质量的散点图等。同时,该软件也可以对guppy碱基识别后生成的统计文件sequencing_summary.txt进行绘图。

网址:https://github.com/wdecoster/NanoPlot

可以直接使用pip安装,不过由于python版本的问题,还是推荐使用bioconda来进行安装。

conda install -c bioconda nanoplot

二、使用案例

NanoPlot可以直接对guppy生成的fastq文件进行处理,同时也支持fasta格式,支持压缩格式,或者排序后的bam文件,如果有sequencing_summary.txt也可以直接进行绘图。

直接对fastq格式质控

NanoPlot --fastq ../2.rawdata/minion/all..fastq.gz  -t 12 --maxlength 40000 --plots hex dot pauvre kde -o nanoplot

NanoPlot可以直接对guppy生成的sequencing_summary.txt的绘图。

Nanoplot –summary sequencing_summary.txt –loglength -o summary 选项参数:

-t:线程数目
-o, --outdir:输出结果目录
-p, --prefix:输出结果前缀
--color:点的颜色
--N50 表示在序列读长的直方图中显示N50的标识
--title:标题
--downsample :在输入文件中随机抽取n条序列进行处理
--minlength:忽略nbp以下的reads
-- fastq:输入fastq格式文件
-f:图片类型
--plots:绘图类型,kde,hex,dot,pauvre

三、结果解读

NanoPlot输出结果主要是一些图片和一个网页文件,直接将结果拷贝到windows电脑上用浏览器打开网页文件即可。里面主要包括一些统计信息和可视化展示。对于nanopore数据来说,最重要的两个指标为长度分布与平均Q值,这些指标将用于下一步的数据质控操作。

表1 NanoPlot质控统计表

图1 长度与质量分布图

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn