若一个样本有4个fastq,此处分开处理fastq,将同⼀通道的两个fq文件⼀起处理,生成⼀个sam/bam⽂件,那样子⼀个样本共生成2个sam/bam⽂件,后面还要进行merge步骤。 若一个样本只有2个fastq,此处刚好生成一个样本一个bam文件。 -R 参数涉及到后续步骤,非常重要,如果设错了需要重新跑这一步。 $ time...
GATK4 流程分析- 从fastq到vcf - Beccaliii的文章 - 知乎 https://zhuanlan.zhihu.com/p/69726572
突变检测有时候从reads开始,有时候又需要从bam开始。如果从bam开始,请务必确认bam的参考文件并后续分析中需保持一致,否则会出错! 从fastq开始,要注意做质量控制,再用STAR做alignment 从bam开始,可以注释掉STAR 的命令,从sambamba开始 如果是从hg19作为ref的bam,想换成hg38作为ref,则需要把bam转换成fastq,再重新基于h...
简单理解就是gatk4是根据bam文件,生成vcf文件的软件;不仅如此,gatk开发团队(broad institute)对整个从fatsq→vcf分析流程都建立了标准的分析pipeline,即GATK Best Practices系列 关于SNP、INDEL等变异类型可参考之前的VCF格式详解笔记 (插一句就是我登录broad institute GATK页面总是有问题,不知道其他小伙伴也遇到类似问题。
3. 过滤VCF文件 第一步,运行GetPileupSummaries 代码语言:javascript 复制 gatk-launch GetPileupSummaries \-Itumor.bam \-Vsmall_exac_common_3.vcf \-Opileups.table 第二步,运行CalculateContamination 代码语言:javascript 复制 gatk-launch CalculateContamination \-Ipileups.table \-Ocontamination.table ...
-ERC GVCF -L $bed -R $GENOME -I $bam --dbsnp $DBSNP -O ${sample}_raw.vcf fi i=$((i+1)) done 最后把多个gvcf文件合并 因为合并只能一次给定一个区间,所以需要分染色体来做,正好相当于是并行!!! 代码语言:javascript 复制 forbedinchr{1..22}chrX chrYdoif((i%$1==$2))then ...
|-- [1.4M] Mills_and_1000G_gold_standard.indels.hg38.vcf.gz.tbi 一般来说下载大文件是需要进行md5检验的,但是我下载这么多次从来没有出过问题,为了简化教程, 就略过这一步咯。 首先测试GATK找germline变异流程 选取一个测试数据,是一个WES时间,介绍如下: ...
fq2=clean_fastq/CGU_OSCC_32_WXS_N_2_val_2.fq.gz sample='oscc' ## 还需要设置好软件地址 GENOME=/umac/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta GATK=/umac/biosoft/GATK/gatk-4.0.2.1/gatk DBSNP=/umac/biosoft/GATK/resources/bundle/hg38/dbsnp_146.hg38.vcf.gz ...
接下来是构建分析流程 第一步是去接头(trim_galore): rule trim_galore: input: "{sample}/{sample}.L1-B1.R1.fastq.gz", "{sample}/{sample}.L1-B1.R2.fastq.gz" output: "{sample}/clean_fq/{sample}.L1-B1.R1_val_1.fq.gz",
|-- [1.4M] Mills_and_1000G_gold_standard.indels.hg38.vcf.gz.tbi 一般来说下载大文件是需要进行md5检验的,但是我下载这么多次从来没有出过问题,为了简化教程, 就略过这一步咯。 首先测试GATK找germline变异流程 选取一个测试数据,是一个WES时间,介绍如下: ...