bam文件去重复 建库过程PCA扩增过程中引入重复序列,会对变异检测结果产生影响,重复的DNA片段会比对到参考基因组的相同位置,根据这一特点来进行去重复。 001、gatk(picard标记重复) gatk MarkDuplicates -I sample01.sorted.bam -O sample01.sorted.markdup.bam -M sample01.sorted.markdup_metrics.txt 002、samtools ...
也可以使用sambamba操作bam文件和去除重复,据说该命令运行比picard MarkDuplicates快30倍。 过滤bam文件和去重复 SAM(sequence Alignment/mapping)数据格式是目前高通量测序中存放比对数据的标准格式。BAM是SAM的二进制格式。 bam文件优点:bam文件为二进制文件,占用的磁盘空间比sam文本文件小;利用bam二进制文件的运算速度快。