另外,除了要区分SNP和Indel模式之外,GATK VQSR分为两个步骤进行:VariantRecalibrator 和 ApplyVQSR,两者缺一不可。VariantRecalibrator用来进行模型计算,获得数据的情况,ApplyVQSR则是根据我们设定的ts_filter_level参数,最终过滤得到数据,这个参数基于我们对模型真集数据的灵敏度和特异性来确定,一般会设置为99.0%(比如上...
左上方的图显示了与数据相符的概率密度函数,绿色区域表示高质量的变异位点的分布,而红色区域表示低质量变异位点snp的分布;一般情况下,位于红色区域的snp将被过滤。简而言之,就是2个色块区分越明显越好。 在右上角的图中,snp分别被涂成黑色和红色,以显示应用VQSR程序保留和过滤了哪些snp。红色snp不满足给定的 truth ...
这里还有个参数要提一下,-tranche默认是输出[100,99.9,99.0,90.0]4个tranche阈值的统计结果,如果想看其他阈值的结果,需要自行加上;结果就是看KPGP-00216_L1.snp.tranches(还有图形展示的KPGP-00216_L1.snp.tranches.pdf),而KPGP-00216_L1.snp.recal文件则是用于ApplyVQSR的 Applying recalibration/filtering to S...
我想这应该不难理解,既然VQSR就是用这些指标来训练质控模型的,那么它们就可以在一定程度上描述每个变异的质量,我们用这些指标设置对应的阈值来进行硬过滤也将是合理的。VQSR使用的数据指标有6个(这些指标都在VCF文件的INFO域中,如果不是GATK得到的变异,可能会有所不同,但知道它们的含义之后也是可以自己计算的),分别...
这是因为设置的VQSR这一步,numBad这个参数设置太大了,调低一些就可以了。 ### ERROR --- ### ERROR A USER ERROR has occurred (version 2.7-2-g6bda569): ### ERROR ### ERROR This means that one or more arguments or inputs in your command are incorrect. ### ERROR The error message belo...
注意:由于GATK在下游的snpcalling时,是按染色体进行callsnp的。因此,在准备原始sam文件时,可以先按染色体将文件分开,这样会提高运行速度。但是当数据量不足时,可能会影响后续的VQSR分析,这是需要注意的。 2. 对sam文件进行进行重新排序(reorder) 由BWA生成的sam文件时按字典式排序法进行的排序(lexicographically)进行排...
resource指定建模时参考的vcf文件,可以看到对于indel和snp, 参考的数据库不一样。这一步只是建模,会输出一个recalibration table文件,用于ApplyVQSR命令。 第五步,运行VQSR, 命令如下 代码语言:javascript 复制 gatk--java-options"-Xmx5g -Xms5g"\ ApplyVQSR \-Otmp.indel.recalibrated.vcf \-V${input_vcf}\-...
-o VQSR_recalibrated_out_snp 对于INDEL: # 第一步:Variant recalibrat for INDEL:$JAVA_HOME/bin/java-jar./GenomeAnalysisTK.jar \-TVariantRecalibrator\-R$ref_fasta\-inputGenotypeGVCFs_out_indel.vcf \-resource:mills,known=false,training=true,truth=true,prior=12.0dbsnp_146.hg38.vcf \-resource...
通过 gatk_dict 包含的文件路径参数,对输入进行解包处理。在 VariantRecalibrator 中,基于已知变异信息构建模型,以确定真实变异。get_annotation 功能获取 VCF 文件中 INFO 列信息,对靶向测序如 WES 进行分析。max-gaussians 参数用于高斯混合模型的设置,这是一种无监督的聚类模型。ApplyVQSR 阶段,应用...