把GPL表格信息向右滑动,找到gene_assignment那列,把//做为切割符,取出第二个字符就是真正的基因名,这时探针就和基因完美匹配啦~知道如何找到任何一篇文章的数据存放位置,接下来就要下载数据进行分析了。 2.下载数据一. 直接下载rawdata —— 不推荐使用 注意:这个示例文件给的是rawdata,里面是cel格式,所以不推荐用...
6.separate(gene_assignment,c('drop','symbol'),sep='//') %>% 7.select(-drop) 看一下,数据已经被提取出来了。 假如getGEO这一步网络不好呢 1.library(GEOquery) 2.GPL6244 <>'GPL6244',destdir ='.') 我们在这个一开始的这个页面下载平台的soft文件 点击soft文件 下载解压 然后用data.table这个包...
GPL6244_anno <->Table(GPL6244) 查看内容,我们发现基因名称藏在了gene_assignment这一列的中间 所以我们要把他和第一列id提取出来 library(dplyr) library(tidyr) probe2symbol_df <- gpl6244_anno="" %="">% select(ID,gene_assignment) %>% filter(gene_assignment !='---') %>% separate(gene_as...
"gene_assignment"这一列不就有基因名称嘛,具体转换可以用perl / R / python语言等写个脚本来做。
gpl_anno["symbol"] <- stringr::str_extract(gpl_anno$gene_assignment ,pattern = "//.*?//") %>% stringr::str_remove_all(pattern = "//| ") ids <- gpl_anno %>% dplyr::select("ID","symbol") colnames(ids) <- c("probe_id","symbol") ...
gene_assignment:基因的描述 mrna_assignment:mrna的描述 swissprot:蛋白数据库的描述 category:种类 spot_ID:spot格式的ID Data table:就是所有的详细数据 Total number of rows: 就是对文件列数的描述 至此,对GPL文件的学习就结束了。 shengxinguoer 生信果 ...
total_probes:总的探针数目 gene_assignment:基因的描述 mrna_assignment:mrna的描述 swissprot:蛋白数据库的描述 category:种类 spot_ID:spot格式的ID Data table:就是所有的详细数据 Total number of rows: 就是对文件列数的描述 至此,对GPL文件的学习就结束了。
probe2symbol <- idmaps2("GPL5175-3188.txt", Feature ="gene_assignment", skip = 12) ID转换 把表达矩阵中的探针名转换为基因名;transid是我写的一个R函数,有需要可以联系我的公众号@生信探索,加入交流群 fdata <- transid(probe2symbol, probe_exprs) ...
"gene_assignment"这一列不就有基因名称嘛,具体转换可以用perl / R / python语言等写个脚本来做。GEO
一般可以得到Genesymbol ,即基因的名字然后进行相关的检索。 如果没有则可以通过选定select column中的gene assignment显示的第二个即为Genesymbol。 下载后在Excel中通过分列就可以获取单独的Genesymbol,即最终的差异基因列表。 通过下载GEO公共数据库的测序结果可以进行分析差异基因以及...