XML 文件与HTML非常类似,不一样的是,XML 被设计用来传输和存储数据,其焦点是数据的内容。 这个是总生存率分析用到的数据,从病人收入到死亡的事件(days_to_death), 从病人收入到最后的随访时间(days_to_last_followup) 这个是无进展生存率分析用到的数据,是否有新的肿瘤事件(new_tumor_event_after_initial_trea...
'LYMPH_NODE_DISSECTION_METHOD','LYMPH_NODE_EXAMINED_COUNT','LYMPH_NODES_EXAMINED_HE_COUNT','LYMPH_NODES_EXAMINED_IHC_COUNT','PATH_MARGIN','VITAL_STATUS','DAYS_TO_LAST_FOLLOWUP','DAYS_TO_DEATH','TUMOR_STATUS','AJCC_TUMOR_PATHOLOGIC_PT','AJCC_NODES_PATHOLOGIC_PN',...
BRCAcldf <- xmlToDataFrame(xmltop2[2]) return(t(BRCAcldf)) } 3)合并临床数据 cl <- lapply(TCGA_clinical_xmls,cldf) TCGA_cl <- t(do.call(cbind,cl)) clinical <- data.frame(TCGA_cl) 4)提取基本临床信息 #提取样品ID ID=clinical$bcr_patient_barcode #提取年龄 age=(clinical$days_to_bi...
[35]"days_to_death""bcr_patient_barcode" [37]"year_of_death" XML临床信息 可以通过官网下载XML格式的临床信息,点点点即可,如下图所示,官网的选择结果: 当然也可以通过TCGAbiolinks下载XML格式的临床数据,但是要注意,由于一个病人可能有多个临床信息(比如有多次化疗信息),所以一次只能解析一个表格,需要通过clinic...
2)提取基本的临床信息 包括样品ID、年龄、生存时间、生存状态、TMN分期等 #提取样品ID ID=clinical$case_submitter_id #提取年龄 age=clinical$age_at_index #提取性别 gender=clinical$gender #提取生存时间 time=clinical$days_to_death #提取生存状态
TCGA数据库临床信息里面的days to death指的是从什么时间到死亡的时间?包括days to last follow up,...
生存状态在clinical.tsv文件中对应vital_status列,生存时间有两列,days_to_death和days_to_last_follow_up,需要进行整合。 4.将样本的表达矩阵和生存状态以及生存时间合并起来 这里需要注意,我们只提取肿瘤样本的表达矩阵进行后续的生存分析,和cox回归分析。因为生存时间和生存状态是跟病例相关的,而不是跟样本相关。不...
clinical信息需要进一步整理,成为生存分析需要的格式,新临床信息数据命名为meta。 由于不同癌症的临床信息表格组织形式不同,这里的代码需要根据实际情况修改。 rm(list=ls()) options(stringsAsFactors = F) load("TCGA-CHOL_gdc.Rdata") library(stringr) ...
GO富集分析的数据来源于Cistrome project (http://www.cistrome.org/)。KEGG富集分析的数据来源于KEGG project(http://www.kegg.jp/)。自噬相关基因(ARGs)的RNA表达谱数据经归一化后,使用R语言的limma包分析表达差异,阈值|logFC|>1,padj<0.05,得到的差异表达的ARGs和相关的临床数据用于后续分析。
使用的TCGA数据版本较早(2018),现主流渠道下载的数据版本都比这个新,因此最终整合的样本数如果不完全一致也是正常的。今天先从TCGA的表达矩阵和临床信息整理和清洗开始,数据从Xena(version-07-19-2019)获取。当然,也可以从GDC官方获取最新版,需要多一个文件合并的步骤,教程可戳:《TCGA更新了?!最新数据处理拿捏住!