序列预处理--seqtk

September 08, 2021 Trim 阅读量：次

seqtk在生信届被誉为序列处理的瑞士军刀，其出自生信大神李恒之手，李恒是SAMtools、BWA、MAQ等著名生信软件的核心作者。
seqtk基于C语言编写的软件，运行速度极快，极大的提高工作效率。
Seqtk 是一种快速轻量级的工具，用于处理 FASTA 或 FASTQ 格式的序列。它可以无缝解析 FASTA 和 FASTQ 文件，这些文件也可以通过 gzip 进行压缩。
seqtk日常序列的处理包括，比如：fq转换为fa，格式化序列，截取序列，随机抽取序列等。
官网： https://github.com/lh3/seqtk

一、安装

git clone https://github.com/lh3/seqtk.git;
cd seqtk; make

二、使用示例

包含的命令行：

seq       common transformation of FASTA/Q # FASTA/Q 的转换 
comp      get the nucleotide composition of FASTA/Q # 获取FASTA/Q的核苷酸组成
sample    subsample sequences # 获取样本序列 
subseq    extract subsequences from FASTA/Q # 提取子序列
fqchk     fastq QC (base/quality summary) # fastq的质控
mergepe   interleave two PE FASTA/Q files # 交叉合并双端测序的两个FASTA/Q files，
                                       # 合并后的file第一条序列是第一个fq的第一条，
                                       # 合并后的file第二条是序列是第二个fq的第一条
trimfq    trim FASTQ using the Phred algorithm # 用Phred算法对fq修剪

hety      regional heterozygosity # 区域性杂合
gc        identify high- or low-GC regions # 识别高低GC含量的区域
mutfa     point mutate FASTA at specified positions # 在特定位置指出FASTA的突变
mergefa   merge two FASTA/Q files # 合并两个的FASTA/Q files
famask    apply a X-coded FASTA to a source FASTA # 将X编码的fa应用到原fa
dropse    drop unpaired from interleaved PE FASTA/Q # 从交错合并的fa/fq中丢弃不成对的序列
rename    rename sequence names # 序列重命名
randbase  choose a random base from hets#从hets中随机选一个碱基
cutN      cut sequence at long N # 在N长度处切掉序列
listhet   extract the position of each het # 提取每一个het位置

将 FASTQ 转换为 FASTA：

seqtk seq -a in.fq.gz > out.fa

将 ILLUMINA 1.3+ FASTQ 转换为 FASTA 并将质量低于 20 的碱基屏蔽为小写（第一个命令行）或N（第二个）

seqtk seq -aQ64 -q20 in.fq > out.fa
seqtk seq -aQ64 -q20 -n N in.fq > out.fa

折叠长 FASTA/Q 线并删除 FASTA/Q 注释：

seqtk seq -Cl60 in.fa > out.fa

将多行 FASTQ 转换为 4 行 FASTQ：

seqtk seq -l0 in.fq > out.fq

反向互补 FASTA/Q：

seqtk seq -r in.fq > out.fq

提取名称在 file 中的name.lst序列，每行一个序列名称：

seqtk subseq in.fq name.lst > out.fq

提取文件中包含的区域中的序列reg.bed：

seqtk subseq in.fa reg.bed > out.fa

将reg.bed区域屏蔽为小写：

seqtk seq -M reg.bed in.fa > out.fa

从两个大的配对 FASTQ 文件中对 10000 个读取对进行子采样（记住使用相同的随机种子来保持配对）：

seqtk sample -s100 read1.fq 10000 > sub1.fq
seqtk sample -s100 read2.fq 10000 > sub2.fq

使用 Phred 算法从两端修剪低质量碱基：

seqtk trimfq in.fq > out.fq

从每个读取的左端修剪 5bp，从右端修剪 10bp：

seqtk trimfq -b 5 -e 10 in.fa > out.fa

重命名会将序列id变为从1到n….

seqtk rename in.fa <前缀> > out.fa

合并两个序列,通常我们Illunima双端测序会得到两个文件R1.fq.gz和R2.fq.gz，这个命令就是帮助怎么完美实现两两配对

$seqtk mergefa

Usage: seqtk mergefa [options] <in1.fa> <in2.fa># 合并两个的FASTA/Q files

Options: -q INT   quality threshold [0]
         -i       take intersection#取交集
         -m       convert to lowercase when one of the input base is N
         -r       pick a random allele from het
         -h       suppress hets in the input

cutN 去掉序列中的N/或者查看N所在的位置信息（-n 指定N的最小长度） -g 只打印出位置信息

Usage:   seqtk cutN [options] <in.fa>

Options: -n INT    min size of N tract [1000]
         -p INT    penalty for a non-N [10]
         -g        print gaps only, no sequence

参考资料

https://github.com/lh3/seqtk

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn