【3.2】nanopack--数据质控分析

当前nanopore测序质量虽然有很大的改善,但准确性依然不及二代测序,例如illumina或者BGIseq等。前面介绍过,目前主流的R9.4芯片准确性在92%左右,下面是百迈克公司发布的一些nanopore测序数据的情况,我们看到当前nanopore测序平均Q值在7以上,Q7可以作为数据过滤的一个标准,平均长度可以在20K以上。

表1百迈克公司发布nanopore测序数据情况

注:Species:分析的物种信息;SeqNum:各个长度范围内序列的数目;SumBase:指各个长度范围内序列的总长度;N50Len:reads N50长度;N90Len:readsN90长度;MeanLen:平均reads长度;MaxLen:最长reads长度;MeanQual:质量值,准确度=1-10^(-Q/10)

虽然前面我们介绍过可以使用minion_qc处理sequencing_summary.txt文件进行绘图,但这是对结构化的统计表进行处理,而更常见的情况是需要对fastq文件进行处理。nanopack软件包可以用于nanopore数据的各种处理,里面包含了NanoComp,NanoFilt,NanoGUI,NanoLyse,NanoPlot,NanoStat等工具包,可以使用pip直接进行安装,一些工具也可以使用bioconda来安装,不过工具包中并不包括nanoQC,nanoQC需要单独安装。软件需要python 3以上版本,因为python的版本问题可能导致安装不成功,所以建议利用bioconda虚拟环境来进行安装使用。

一、安装nanopack软件

软件官网:https://github.com/wdecoster/nanopack

虚拟环境安装

conda create -y -n nanopack
conda activate nanopack
conda install -c bioconda nanoqc nanoplot  nanostat  nanofilt
conda deactivate nanopack

安装的工具路径:

(nanopack) [sam@c01 1.analysis]$ ll /data/software/miniconda3/envs/nanopack/bin/ |grep Nano
-rwxrwxr-x 1 sam sam      256 Aug  9 14:31 NanoFilt
-rwxrwxr-x 1 sam sam      256 Aug  9 14:31 NanoPlot
-rwxrwxr-x 1 sam sam      256 Aug  9 14:31 NanoStat
(nanopack) [sam@c01 1.analysis]$ ll /data/software/miniconda3/envs/nanopack/bin/ |grep nano
-rwxrwxr-x 1 sam sam      252 Aug  9 14:31 nanoQC

二、利用 nanoQC数据质控

软件安装完成之后就可以使用NonoQC用于对nanopore测序数据进行质控,软件使用比较容易。

mkdir nanoQC
nanoQC  ../2.rawdata/minion/all..fastq.gz -o nanoQC
-o /--outdir:输入结果目录

结果解析

nanoQC会生成两个文件nanoQC.html,NanoQC.log,其中nanoQC.html是一个网页文件,可以传到windows下用浏览器打开,主要是一些质控图,包括长度和质量的分布等。

如果需要统计信息,可以使用nanostat进行统计。

NanoStat --fastq  ../2.rawdata/minion/all.sra.fastq.gz --outdir statreports
-o:输出结果目录
--fastq:输出fastq格式文件
--readtype {1D,2D,1D2}:测序数据类型
-p:输出结果前缀

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn