GenotypeGVCFs这个工具本质上还是一个单线程工具,通过并行计算不同区域来提升速度,随着线程数增加并没什么用处,建议实际操作设置为2个线程就行。 内存也别设置的太高,增加内存反而影响计算性能,建议设置到正常范围。 参考资料: https://www.jianshu.com/p/21a64ea61792 https://hpc.nih.gov/training/gatk_tutorial...
即:单个样本的GVCF文件;由CombineGVCFs模块将多个样本的GVCF文件生成在一起的文件;由GenomicsDB模块将多个样本GVCF处理生成一起的工作空间。当然这里的GVCF 文件是由HaplotypeCaller模块的-ERC GVCF或者-ERC BP_RESOLUTION参数产生, 如果是其他工具生成的GVCF可能会因为缺少某些GenotypeGVCFs需要的重要信息导致出错。 因此对于...
echo 'gatk CombineGVCFs \' > combine.sh #将命令写在另一个脚本里 echo '-R' ${Ref_genome} '\' >> combine.sh for i in {*.g.vcf.gz}; do echo '--variant '${i}' \' >> combine.sh; done echo '-O all_sample.g.vcf.gz' >> combine.sh; sh combine.sh #执行combine.sh脚本 #...
由 CombineGVCFs 模块将多个样本的GVCF文件生成在一起的文件;由 GenomicsDB 模块将多个样本GVCF处理生成一起的工作空间。当然这里的GVCF 文件是由 HaplotypeCaller 模块的 -ERC GVCF 或者 -ERC BP_RESOLUTION 参数产生, 如果是其他工具生成的GVCF可能会因为缺少某些 GenotypeGVCFs 需要的重要信息导致出错。
并不是每一个命令都可以开多进程的,需要到gatk官网查询文档,搜索命令后,在命令的API文档里搜索thread即可快速查找是否能使用多线程1.生成raw vcf 文件参数说明先用HaplotypeCaller生成gvcf文件,然后再运行CombineGVCFs。java -Xmx96G -jar /home/chaim/disk/gatk/gatk4/gatk-package-4.0.10.1-local.jar \ #Xmx96G...
对这类变异的检测有一整套流程,主要用到的工具是:HaplotypeCaller 、GenomicsDBImport、GenotypeGVCFs、...