gtf <- rtracklayer::import('Homo_sapiens.GRCh38.99.chr.gtf.gz')#转换为数据框gtf <- as.data.frame(gtf)查看文件,保存文件为Rdata,将来方便我们直接打开 dim(gtf)save(gtf,file = "Homo_sapiens.GRCh38.99基因组注释文件.Rda")可见文件有290万行,27列,由于GTF文件中,基因ID的列名是gene_id,所...
# 安装和加载Bioconductor包if(!requireNamespace("BiocManager",quietly=TRUE))install.packages("BiocManager")BiocManager::install("biomaRt")BiocManager::install("AnnotationDbi")library(biomaRt)library(AnnotationDbi)# 连接Ensembl数据库ensembl<-useMart("ensembl",dataset="hsapiens_gene_ensembl")# 转换TCGA基因ID...
写在前面 我们在使用TCGA数据库的时候,从TCGA数据库下载到的数据,使用的原始数据ID是ENS ID。对于这样的ID号,我们一方面不认识他们是什么,另外如果要做下有分析的话,很多数据库也不接受这样的输入,所以就需要转换为gene symbol。前几天我们也实验过,如果使用很多ID 转换工具的话,很多基因是转换不过来的。尤...
将ENSG ID转化为指定的编码基因与非编码基因Symbol,如常见的Gene Symbol、lncRNA Symbol等 1.输入参数选择,以提取Gene Symbol 2. 输入之前与输入之后的文件
library(stringr)exp$Ensembl_ID<-rownames(exp)exp$Ensembl_ID=str_sub(exp$Ensembl_ID,1,15)library(clusterProfiler)library(org.Hs.eg.db)# 查看org.Hs.eg.db 包提供的转换类型keytypes(org.Hs.eg.db)# 需要转换的Ensembl_IDEnsembl_ID<-exp$Ensembl_ID# 采用bitr()函数进行转换gene_symbol<-bitr(...
TCGA或TCGA+GTEx的表达矩阵,行名都是ensamble id,因为TCGA数据的参考基因组版本是genecode V22,xena重新分析的TCGA+GTEx数据参考基因组版本则是genecode V23。 代码复制太多次了,于是我写了一个函数,将ensamble id表达矩阵直接转换为symbol。 仍然是tinyarray包,今天说的函数是新写的,到Github下载最新版本的包吧: ...
nRGTab = gene_list, nBar = 10, filename = "~/Downloads/go_enrichment.pdf" ) 或者使用clusterProfiler包进行富集分析,该包提供了两个函数 enrichGO:过表达富集分析方法 gseGO:GSEA富集分析方法 1.1 enrichGO 该函数需要输入entrez_gene_id,所以要先对基因进行转换 ...
TCGA_id <- as.character(naid_df[location[1],2]) ##通过坐标,获取TCGA_id expr_df<- read.table(paste0("data_unzip/",nameList[1]),stringsAsFactors = F, header = F) #读入第一个文件,保存为data.frame names(expr_df) <- c("gene_id",TCGA_id) #给刚才数据库命名 ...
有了基因长度信息,就很容易转换啦! 首先检查表达量矩阵额基因长度信息: > load(file = 'gene_length.Rdata') > head(g_l) gene_id length 1 1 9488 2 10 1285 3 100 2809 4 1000 9054 5 10000 13977 6 100009613 1004 > load('../expression/Rdata/TCGA-ACC.htseq_counts.Rdata') ...