高通量测序数据的处理工具--picard

一组用于操作高通量测序 (HTS) 数据和格式的 Java 命令行工具。

Picard 是使用 HTSJDK Java 库 HTSJDK 实现的,以支持访问通常用于高通量测序数据的文件格式,例如 SAM 和 VCF。

支持的功能包括:*

  • AddCommentsToBam
  • AddOrReplaceReadGroups
  • BamToBfq
  • BamIndexStats
  • BedToIntervalList
  • BuildBamIndex
  • CalculateHsMetrics
  • CleanSam
  • CollectAlignmentSummaryMetrics
  • CollectBaseDistributionByCycle
  • CollectGcBiasMetrics
  • CollectInsertSizeMetrics
  • CollectMultipleMetrics
  • CollectTargetedPcrMetrics
  • CollectRnaSeqMetrics
  • CollectWgsMetrics
  • CompareSAMs
  • CreateSequenceDictionary
  • DownsampleSam
  • ExtractIlluminaBarcodes
  • EstimateLibraryComplexity
  • FastqToSam
  • FifoBuffer
  • FilterSamReads
  • FilterVcf
  • FixMateInformation
  • GatherBamFiles
  • GatherVcfs
  • GenotypeConcordance
  • IlluminaBasecallsToFastq
  • IlluminaBasecallsToSam
  • CheckIlluminaDirectory
  • IntervalListTools
  • LiftoverVcf
  • MakeSitesOnlyVcf
  • MarkDuplicates
  • MarkDuplicatesWithMateCigar
  • MeanQualityByCycle
  • MergeBamAlignment
  • MergeSamFiles
  • MergeVcfs
  • NormalizeFasta
  • ExtractSequences
  • QualityScoreDistribution
  • ReorderSam
  • ReplaceSamHeader
  • RevertSam
  • RevertOriginalBaseQualitiesAndAddMateCigar
  • SamFormatConverter
  • SamToFastq
  • SortSam
  • SortVcf
  • UpdateVcfSequenceDictionary
  • VcfFormatConverter
  • MarkIlluminaAdapters
  • SplitVcfs
  • ValidateSamFile
  • ViewSam
  • VcfToIntervalList

一、安装

安装: http://broadinstitute.github.io/picard/

cd /data/software/
wget -c https://github.com/broadinstitute/picard/releases/download/2.27.1/picard.jar

二、使用说明

更多文档:

说明 文档:https://cncbi.github.io/Picard-Manual-CN/command-line-overview.html#CompareSAMs

java jvm-args -jar picard.jar PicardCommandName OPTION1=value1 OPTION2=value2...

大多数命令都设计为在 2GB 的 JVM 中运行,因此建议使用 JVM 参数 -Xmx2g。

三、报错

四、讨论

五、我的案例

5.1 检查bam的问题

java -jar /data/software/picard.jar ValidateSamFile I=198p.bam OUTPUT=198pr.bam MODE=SUMMARY


## HISTOGRAM    java.lang.String
Error Type      Count
ERROR:INVALID_INDEX_FILE_POINTER        1
ERROR:MISSING_READ_GROUP        1
WARNING:RECORD_MISSING_READ_GROUP       33625198


java -jar /data/software/picard.jar ValidateSamFile I=198p.bam OUTPUT=198pr.bam MODE=SUMMARY IGNORE=INVALID_INDEX_FILE_POINTER

这个报错的原因,怀疑是单个基因片段对应的reads数目太多,超出了处理上线。 建议换掉sam, 用sambamba来从sam 得到bam

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn