–gzvcf:处理压缩格式的vcf文件(可替换为–vcf)–chr n:选择染色体n,例:–chr 1 –recode:重新编码为vcf文件,有过滤操作都要加上--recode –recode-INFO-all:将输出的文件保存所有INFO信息 –stdout:标准输出,后接管道命令 –gzip -c:压缩 --max-missing --max-miss
2.2 使用vcftools过滤 vcftools --gzvcf merged_final.sort.snp.vcf.gz --recode --recode-INFO-all --stdout --maf 0.05 --max-missing 0.7 --minDP 4 --maxDP 1000 \ --minQ 30 --minGQ 0 --min-alleles 2 --max-alleles 2 --remove-indels |gzip - > clean.vcf.gz # --gzvc: 指定输入...
--max-missing 后跟的值为 0-1 ,1代表不允许缺失,0代表允许全部缺失。 1. 2. 计算snp缺失率 vcftools中有两个参数可以计算vcf文件中snp的缺失率。 分别是: –missing-indv:生成一个文件,报告每个样品的缺失情况,该文件的后缀为“.imiss”。 –missing-site:生成一个文件,报告每个snp位点的缺失情况,该文件的...
遍历vcf文件中的每条变异记录。 根据预设的过滤条件判断每条记录是否符合要求。将过滤后的记录输出到新的vcf文件: 将符合条件的变异记录写入新的vcf文件。以下是一个使用Python和vcfpy库进行vcf文件过滤的示例代码: python import vcfpy def filter_vcf(input_vcf, output_vcf, min_maf=0.05, max_missing=0.1):...
vcftools --vcf GT_AGCT_Liujingyan.vcf --max-missing 0.5 --maf 0.05 --remove-indels -- ...
vcf 文件中很多snp在某些样品中是缺失的,也就是基因型为 "./." 。如果缺失率较高,这种snp位点在很多分析中是不能用的,需要去掉。这里用到的选项是--max-missing。 使用方法: vcftools--vcfsnp.vcf--recode--recode-INFO-all--stdout--max-missing1> snp.new.vcf ...
--max-missing后跟的值为 0-1 ,1代表不允许缺失,0代表允许全部缺失。 计算snp缺失率 vcftools中有两个参数可以计算vcf文件中snp的缺失率。 分别是: --missing-indv:生成一个文件,报告每个样品的缺失情况,该文件的后缀为“.imiss”。 --missing-site:生成一个文件,报告每个snp位点的缺失情况,该文件的后缀为“...
–recode:重新编码为vcf文件,有过滤操作都要加上--recode –recode-INFO-all:将输出的文件保存所有INFO信息 –stdout:标准输出,后接管道命令 –gzip -c:压缩 output.vcf.gz:将结果输出到output.vcf.gz --max-missing --max-missing的取值是0-1,为1时表示某个位点上所有的样本必须都有基因型,一个样本的基因...
vcftools --vcf all.SNP.vcf --hardy --max-missing 1.0 --out all_snp_hardy # --hardy 计算Hardy-Weinberg值 # --max-missing 1.0,不允许有缺失的基因型,--max-missing的值在0-1之间,0代表完全允许 结果文件(all_snp_hardy.hwe) 6,计算pi(π) vcftools --vcf all.SNP.vcf --window-pi 10000 ...
They will either treat some reference genotypes as missing (if INFO END is the min over all samples) or treat some missing or variant genotypes as reference genotypes (if INFO END is the max over all samples). Given this, I prefer that INFO END is required to be missing unless there is...