gatk VariantFiltration -R $ref -V raw_variants.vcf --filter-expression "过滤条件" --filter-name "过滤名称" -O filtered_variants.vcf 其中,$ref是参考基因组的FASTA文件路径,raw_variants.vcf是HaplotypeCaller生成的原始VCF文件,过滤条件是你定义的过滤条件,过滤名称是为过滤条件定义的名称,filtered_variants....
首先尝试使用单个样本进行尝试 gatk VariantFiltration \ -V P174635_LN_filter.snp.vcf \ --filter-expression "CONTQ < 50 || DP < 500 || GERMQ < 30 " \ --filter-name "yuqiao" \ -G-filter "AF < 0.1" \ -G-filter-name "low_AF" \ -O P174635_LN_filter.snp.filter.vcf 注意:每个...
首先是硬过滤的例子,这个过程我都用最新的GATK来完成。GATK 4.0中有一个专门的VariantFiltration模块(继承自GATK 3.x),它可以很方便地帮我们完成这个事情。不过,过滤的时候,需要分SNP和Indel这两个不同的变异类型来进行,它们有些阈值是不同的,需要区别对待。在下面的例子里,我们还是用上一篇文章中最后得到的变异数...
我分染色体执行GATK硬过滤的时候出现发现输出文件显著小于原文件,报错内容如下 (base)[jychu@localhost chr_hardf gatk VariantFiltration-R/public/jychu/refs/Gallus_gallus.GRCg6a.dna.toplevel.fa-V chr2-1_typed.snp.vcf--filter-expression" QUAL < 30.0 || QD < 2.0 || MQ < 40.0 || FS > 60.0 ...
命令行: /share/work/biosoft/java/latest/bin/java -XX:ParallelGCThreads=5 -Xmx50g -Djava.io.tmpdir=tmp -jar /share/work/biosoft/GATK/3.6/GenomeAnalysisTK.jar -T VariantFiltration ……… 报错: ### ERROR --- ### ERROR A USER ERROR has occurred (version 3.6-0-g89b7209): ### ERROR #...
gatk VariantFiltration -V ${sampleName}_INDEL.vcf.gz --filter-expression "QD < 2.0 || FS > 200.0 || SOR > 10.0 || MQRankSum < -12.5 || ReadPosRankSum < -8.0" --filter-name "Filter" -O ${sampleName}_INDEL.filter.vcf.gz ...
(7)过滤变异 - 过滤掉位于blacklisted_site的mtDNA变异(VariantFiltration) gatk--java-options"-Xmx10G -Djava.io.tmpdir=${tmpDir}"VariantFiltration \ -V${sampleName}_final_filtered.vcf \-O${sampleName}_final.vcf \--mask blacklist_sites.hg38....
这一步的目的就是对上一步call出来的变异位点进行过滤,去掉不可信的位点。这一步可以有两种方法,一种是通过GATK的VariantFiltration,另一种是通过GATK的VQSR(变异位点质量值重新校正)进行过滤。 通过GATK网站上提供的最佳方案可以看出,GATK是推荐使用VASR的,但使用VQSR数据量一定要达到要求,数据量太小无法使用高斯模型...
VariantFiltration \--filter-expression"ExcessHet > ${excess_het_threshold}"\--filter-name ExcessHet \-O${variant_filtered_vcf_filename}\-V${vcf} excess_het_threshold指定ExcessHet的阈值;variant_filtered_vcf_filename代表输出的vcf文件的名字;vcf代表GenotypeGVCFs 生成的vcf文件的名字。注意,不满足条件的...
这一步可以有两种方法,一种是通过GATK的VariantFiltration,另一种是通过GATK的VQSR(变异位点质量值重新校正)进行过滤。 通过GATK网站上提供的最佳方案可以看出,GATK是推荐使用VASR的,但使用VQSR数据量一定要达到要求,数据量太小无法使用高斯模型。还有,在使用VAQR时,indel和snp要分别进行。 VQSR原理介绍: 这个模型是...