对于同一个物种,数据库中存在不同的基因组版本,以人类(HomoSapiens)为例,UCSC基因组浏览器中有多个版本:Dec. 2013 (GRCh38/hg38)、Feb. 2009 (GRCh37/hg19)、Mar. 2006 (NCBI36/hg38)等,括号前面的是组装(Assembly)日期。是不是有点惊讶!都2022年了,默认的基因组还是9年前的,更令人惊讶的是,好多网站现...
现在越来愈多测序数据使用hg38版本,但是很多过去的测序数据使用的是hg19版本,如何进行版本转化,推荐以下两篇文章: Lablueee's websiteliftover基因组版本直接的coordinate转换 | 生信菜鸟团
hg19转为hg38后居然会导致坐标排序发生变化 如果我们要比较的两个vcf文件的参考基因组版本不一致,就需要使用CrossMap等软件进行参考基因组版本转换,然后里使用 SnpSift 软件的 Concordance 命令比较它们。其中CrossMap软件依赖pyBigWig,使用conda进行安装,代码如下: ...
vcf ~/data/liftover/hg19ToHg38.over.chain.gz test.snp.hg19.vcf \ ~/data/Homo_sapiens_assembly38.fasta test.snp.hg38.vcf 可以把snp和indel的vcf文件都转换一下,然后拿到的转换好的文件如下: 1.3M Jul 8 05:16 test.indel.hg38.vcf 23K Jul 8 05:16 test.indel.hg38.vcf.unmap 1003K Jun 1...
hg19转为hg38后居然会导致坐标排序发生变化 如果我们要比较的两个vcf文件的参考基因组版本不一致,就需要使用CrossMap等软件进行参考基因组版本转换,然后里使用 SnpSift 软件的 Concordance 命令比较它们。其中CrossMap软件依赖pyBigWig,使用conda进行安装,代码如下:...
也就是说,人类的参考基因组在由hg19进化到hg38的时候,不仅仅是片段的自然扩充,还包括一些以前组装顺序弄错了的片段的纠正。 这样坐标乱序的vcf文件,在很多下游分析都是不友好的,所以可以使用下面的代码进行简单过滤。 input=test.snps.VQSR.vcf cat $input | java -jar ~/biosoft/snpEff/SnpSift.jar filter "(...
也就是说,人类的参考基因组在由hg19进化到hg38的时候,不仅仅是片段的自然扩充,还包括一些以前组装顺序弄错了的片段的纠正。 这样坐标乱序的vcf文件,在很多下游分析都是不友好的,所以可以使用下面的代码进行简单过滤。 input=test.snps.VQSR.vcf cat$input| java -jar ~/biosoft/snpEff/SnpSift.jar filter"( DP...
UCSC 数据库提供了hg19和hg38位置转换工具---LiftOver 网页版:https://genome.ucsc.edu/cgi-bin/hgLiftOver[ht...
网址:https://genome./cgi-bin/hgLiftOver 流程:选择待转化的版本号和转化后的版本号,输入染色体区段,提交,下载转化后结果; 待转化的版本号 新的版本号 点击“submit”,得到.bed文件,即可得到 注:hg38和hg19的区别 1、改变了之前的一些测序错误,组装错误。直观的例子有 degenerate bases 少了很多。
坐标转换 LINUX处理 chmod +x liftOver ./liftOver GSE_hg19_0.bed hg19ToHg38.over.chain GSE_hg38_0.bed unmapped.txt 输出文件 R处理 ID<-fread("GSE_hg38_0.bed",data.table=F)ID<-paste(ID$V1,ID$V2,sep=":")%>%paste(ID$V3,sep="|")IDchange0_1<-function(x){str_split(x,"[:,...