因此在使用VQSR进行变异质控的时候,它们各自的评估模型就需要分开训练和计算——我想大家在使用GATK分析WGS数据的时候就应该知道了(GATK通过参数-mode SNP或者-mode INDEL来有目的地选择SNP或者Indel,不需要自己去把VCF的SNP和Indel分出来),它们用于训练的数据集也是不完全一样的,所以下面我也按照这两个方面分开总结。
图中为示例HiSeq数据调用VQSR生成的高斯混合模型报告,显示了mapping quality rank sum test versus Haplotype score 的信息。 左上方的图显示了与数据相符的概率密度函数,绿色区域表示高质量的变异位点的分布,而红色区域表示低质量变异位点snp的分布;一般情况下,位于红色区域的snp将被过滤。简而言之,就是2个色块区分越...
贴一个非模式生物的GATK BQSR流程:https://evodify.com/gatk-in-non-model-organism/,但这里作者也表示校正效果不佳。除非你有一个很大的训练集,不然不建议。 对于人类基因组而言,一般认为VQSR比硬过滤hard-filtering要好,但如果数据集小(变异数目或者样本数目太少),都不建议。现实中很少有单位用...
第二,要求新检测的结果中有足够多的变异,不然VQSR在进行模型训练的时候会因为可用的变异位点数目不足而无法进行。 https://www.jianshu.com/p/ff8204ae7ebf 学习资料讲解 https://www.jianshu.com/p/66361e7e2340 需要resource file,那么接下来学习一下GATK bundle: 介绍: https://gatkforums.broadinstitute.o...
重测序-gatk4-I am unable to use VQSR (recalibration) to filter variants https://gatk.broadinstitute.org/hc/en-us/articles/360037499012-I-am-unable-to-use-VQSR-recalibration-to-filter-variants