其中gene_type是基因类型,帮助我们区分到底是lncRNA还是mRNA,当然还包括很多其他类型。 # 提取rowData rowdata <- rowData(se) # 看看rowData包括哪些内容,可以看到里面有我们需要的gene_name和gene_type names(rowdata) ## [1] "source" "type" "score" "phase" "gene_id" ## [6] "gene_type" "gene...
1 type,这一列我们需要选择gene 2 gene_biotype,这一列我们需要选择protein_coding,当然你也可以选择其他的种类,比如miRNA,长链非编码等。所以我们首先把蛋白编码的基因的行都筛选出来 a=dplyr::filter(gtf,type=="gene",gene_biotype=="protein_coding")dim(a)这个时候a文件只有19939行了,列下来我们只选择...
expr_count = cbind(gene_type=data$gene_type,gene_name=data$gene_name,counts) 然后接下来我们只需要通过简单的取子集或者filter函数就可以获得mRNA表达数据还是lncRNA数据(注意:一般我们下载的转录组都会提供mRNA和lncRNA的表达数据,我们简单提取就可以了)至于如何获得分组信息,那个和以前并没有任何区别,也就是说...
我们先按照原文的标准在下载的【筛选分子-云】数据中筛选出top50差异表达分子。 筛选出top50差异表达分子如下所示:在这里我们只选择【gene_type】为protein_coding的分子,筛选出上调绝对值最大的前25个和下调绝对值最大的前25个,一共50个top50差异表达分子。 第二步:首先下载LUAD的RNAseq表达谱数据 过程如下: ...
mRNA<-dplyr::filter(gtf,type=="gene",gene_biotype=="protein_coding")%>%#选择编码蛋白 select(gene_name,gene_id,gene_biotype)%>%#选择有用的三列 inner_join(ALLdata1,by ="gene_id")%>%#与表达谱合并 select(-gene_id,-gene_biotype)%>% distinct(gene_name,.keep_all = T)mRNA[1:...
[expr_df$gene_type=="protein_coding",]write.table(exprset,"mRNA_expr_df.tsv",row.names=F,col.names=T,quote=F)#lncRNA and lncRNA中的癌症样本exprset.lnc<-expr_df[expr_df$gene_type=="lncRNA",]write.table(exprset.lnc,"lncRNA_expr_df.tsv",row.names=F,col.names=T,quote=F)...
workflow.type = "STAR - Counts", legacy = FALSE ) TCGAbiolinks::GDCdownload(query, files.per.chunk = 50) data <- TCGAbiolinks::GDCprepare(query, summarizedExperiment = F) data %<>% dplyr::filter(str_detect(gene_id, "^EN")) dt <- data %>% dplyr::select(gene_id, gene_name, gene...
expr_count = cbind(gene_type=data$gene_type,gene_name=data$gene_name,counts) 然后接下来我们只需要通过简单的取子集或者filter函数就可以获得mRNA表达数据还是lncRNA数据(注意:一般我们下载的转录组都会提供mRNA和lncRNA的表达数据,我们简单提取就可以了) ...
expr_count = cbind(gene_type=data$gene_type,gene_name=data$gene_name,counts) 然后接下来我们只需要通过简单的取子集或者filter函数就可以获得mRNA表达数据还是lncRNA数据(注意:一般我们下载的转录组都会提供mRNA和lncRNA的表达数据,我们简单提取...
data.type ="Gene Expression Quantification", workflow.type ="STAR - Counts") 下载检索的数据 如不设置特定的存储文件夹,TCGAbiolins下载的数据会在工作目录下新建一个名为GDCdata的文件夹用来存储下载的数据文件,数据有特定的命名和组织形式。下载数据仅需在前述...