神奇的vcftools 最近每一篇知乎,都有一段血泪史,比如 今天的vcftools。 在我迈入bioinformatics的第二个年头,才知道有vcftools这个神器,以前是真的蠢啊 idiot啊,处理vcf文件用awk、sed、grep等手动傻瓜处理,甚至试图带入R… 没把服务器整坏也真是幸运了,反正就是真的蠢啊!不得不说,生信的发展,真是让我开了眼…...
多线程并行运行Linux效率工具Parallel,bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计,多公共数据库数据下载软件Kingfisher,DNA/RNA/蛋白多序列比对图R包ggmsa,基于ACMG的CNV注释工具ClassifyCNV,基于Symbol和ENTREZID查询基因注释的R包(easyConvert),基于sambamba 窗口reads计数和平均覆盖度统...
-rwxr--r-- 1 hhu pawsey0149 120045 Mar 6 2015 BR_006-RG.bam -rwxr--r-- 1 hhu pawsey0149 247712 Mar 6 2015 BR_006-RG.bam.bai drwxr-s--- 2 hhu pawsey0149 4096 Jul 1 14:54 __MACOSX -rwxr--r-- 1 hhu pawsey0149 399 Mar 6 2015 popmap -rwxr--r-- 1 hhu pawsey...
vcftools可以去除或保留vcf文件中的样品,用到的选项为--indv 和--remove-indv,指定要从vcf文件中保留或删除的样品。 可以多次使用此选项来指定多个样品。 具体用法如下: 下图为原始vcf文件。 只保留1和10号两个样品,执行以下代码: vcftools --vcf in.vcf --recode --recode-INFO-all --stdout --indv 1--...
前面两期我们学习了使用rehh包通过iHS和XP-EHH方法来检测群体内和群体间的选择信号,今天生信小白继续为大家讲解一下另一种检测群体间选择信号的方法—Fst。 群体遗传学中衡量群体间分化程度的指标有很多种,最常用的就是Fst指数。Fst指数,由F统计量演变而来。F统计量(FIS,FIT,FST)主要有三种,Fst是针对一对等位基因...
3. R软件可视化该区域 zemaz = read.table(file='~/maize_hapmap/maize_1000.pi',header = T) dachucao = read.table(file='~/maize_hapmap/dachucao_1000.pi',header = T) zemaz$species ='maize' dachucao$species ='dachucao' df_plot = rbind(zemaz,dachucao) ...
gatk SelectVariants \ -R reference.fasta \ -V input.vcf \ -L chr2 \ -O output.chr2.vcf If you wanted to do this for several chromosomes, or regions within chromosomes, you would give the tool a file of intervals with -L instead of the chromosome name. Suitable interval fi...
2.3 安装R语言 https://anaconda.org/r/r conda install-c r r 3. 文件格式 3.1 hapmap格式:genotype.hmp.txt 行头: rs# alleles chrom pos strand assembly# center protLSID assayLSID panelLSID QCcode sample1 sample2 ... 内容: rs# alleles chrom pos strand assembly# center protLSID assayLS...
8.Weir, B. S. (1996). Genetic data analysis II: methods for discrete population genetic data. Sinauer Associates. 9.Yang, R. C., & Yeh, F. C. (1994). Comparative analysis of molecular variance: an application example using AFLP markers. Genetics, 136(1), 343-350.©...
为了减小计算压力,教程中的处理方式是只保留36个样本(正常数据中好像是有146个样本,解压出来的vcf文件有11G),并且删除了inde,只保留snp位点。但是原文中保留的36个个体的文本文件inds_to_keep.txt我现在找不到,需要自己重新构造一份需要保留的个体的样本名。处理方式是: ...