2.2 使用vcftools过滤 vcftools --gzvcf merged_final.sort.snp.vcf.gz --recode --recode-INFO-all --stdout --maf 0.05 --max-missing 0.7 --minDP 4 --maxDP 1000 \ --minQ 30 --minGQ 0 --min-alleles 2 --max-alleles 2 --remove-indels |gzip - > clean.vcf.gz # --gzvc: 指定输入...
GENOTYPE VALUE FILTERING --min-meanDP 和 --max-meanDP用来限定所有样本DP的平均值,DP表示某一个样本某一位点所有allele的总深度 --hwe2.5 计算Hardy-Weinberg p-value讲到如何求p值,这个参数就是根据p值来过滤的,小于阈值则被过滤掉 --max-missing 前面已经举例;--max-missing-count 某个位点缺失样本个数...
--max-missing 后跟的值为 0-1 ,1代表不允许缺失,0代表允许全部缺失。 1. 2. 计算snp缺失率 vcftools中有两个参数可以计算vcf文件中snp的缺失率。 分别是: –missing-indv:生成一个文件,报告每个样品的缺失情况,该文件的后缀为“.imiss”。 –missing-site:生成一个文件,报告每个snp位点的缺失情况,该文件的...
--max-missing后跟的值为 0-1 ,1代表不允许缺失,0代表允许全部缺失。 计算snp缺失率 vcftools中有两个参数可以计算vcf文件中snp的缺失率。 分别是: --missing-indv:生成一个文件,报告每个样品的缺失情况,该文件的后缀为“.imiss”。 --missing-site:生成一个文件,报告每个snp位点的缺失情况,该文件的后缀为“...
遍历vcf文件中的每条变异记录。 根据预设的过滤条件判断每条记录是否符合要求。将过滤后的记录输出到新的vcf文件: 将符合条件的变异记录写入新的vcf文件。以下是一个使用Python和vcfpy库进行vcf文件过滤的示例代码: python import vcfpy def filter_vcf(input_vcf, output_vcf, min_maf=0.05, max_missing=0.1):...
–gzvcf:处理压缩格式的vcf文件(可替换为–vcf)–chr n:选择染色体n,例:–chr 1 –recode:重新编码为vcf文件,有过滤操作都要加上--recode –recode-INFO-all:将输出的文件保存所有INFO信息 –stdout:标准输出,后接管道命令 –gzip -c:压缩 --max-missing --max-missing的取值是0-1,...
vcf 文件中很多snp在某些样品中是缺失的,也就是基因型为 "./." 。如果缺失率较高,这种snp位点在很多分析中是不能用的,需要去掉。这里用到的选项是--max-missing。 使用方法: vcftools--vcfsnp.vcf--recode--recode-INFO-all--stdout--max-missing1> snp.new.vcf ...
vcftools --vcf all.SNP.vcf --hardy --max-missing 1.0 --out all_snp_hardy # --hardy 计算Hardy-Weinberg值 # --max-missing 1.0,不允许有缺失的基因型,--max-missing的值在0-1之间,0代表完全允许 结果文件(all_snp_hardy.hwe) 6,计算pi(π) ...
–recode:重新编码为vcf文件,有过滤操作都要加上--recode –recode-INFO-all:将输出的文件保存所有INFO信息 –stdout:标准输出,后接管道命令 –gzip -c:压缩 output.vcf.gz:将结果输出到output.vcf.gz --max-missing --max-missing的取值是0-1,为1时表示某个位点上所有的样本必须都有基因型,一个样本的基因...
vcftools 没有这个功能,你可以看看他的帮助:https://vcftools.sourceforge.net/man_latest.html ...