6.2.1 TCGA-BLCA 6.2.1 TCGA-BRCA 6.2.3 TCGA-LGG 6.2.4 TCGA-LUAD 6.2.5 TCGA-LUSC 6.2.6 分析 代码gitee地址 参考资料 1.目的 通过实际数据集上的编程实践,掌握高维数据常用的数据探索与可视化技术,观察和理解“维数灾难”问题的涵义、以及相似性度量和维归约的重要性。 2.数据 癌症基因图谱(The Cancer...
众所周知,TCGA数据库是目前最综合全面的癌症病人相关组学数据库,包括的多组学数据有: DNA Sequencing (WGS/WES) mRNA/miRNA Sequencing Protein Expression Array Array-based Expression DNA Methylation Array Copy Number Array 而TCGA数据库的全部的癌症列表如下: ACC - Adrenocortical carcinoma BLCA - Bladder Urothe...
但是GDC官网里面的数据信息存放单位是样品,每次都是根据要求下载指定的数据即可,无需取子集。 其实GDC官网也是有R包接口,就是TCGA数据库R包集大成者TCGAbiolinks,可以看到其教程非常丰富 https://www.bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html Introduction Searching GDC database Downloading and pre...
但可以匹配GTEx数据库中的正常样本的癌症类型 # proj5 <- c("TCGA-CESC","TCGA-GBM","TCGA-PAAD") # # ###在TCGA中正常样本大于0小于10,在GTEx数据库中也没有正常样本的癌症类型 # proj6 <- c("TCGA-PCPG","TCGA-SARC","TCGA-CHOL","TCGA-THYM") # proj = "TCGA-BLCA" norn <- 10 #...
数据的下载 我们以膀胱癌(BLCA)为例,首先进入网站(http://xena.ucsc.edu/),点击Launch后进入DATA SETS页面,点击BLCA,下载下图标注的一系列文件。 为了满足不同的需求,我们这里对Counts和FPKM数据均进行了处理,大家在处理数据的时候根据自己的需求选择即可。
图2. 来自 20 种癌症类型的 FFPE 肿瘤组织的验证集的混淆矩阵 (百分比)。使用 200 个选定的探针进行癌症类型预测的验证集 (n=78) 的混淆矩阵。正确预测样本的百分比用绿色突出显示;错误分类的样本用粉红色突出显示。真正的组织学/预测的组织学分别在行/列中列出。ACC 肾上腺皮质癌、BLCA 膀胱尿路上皮癌、BRCA ...
将这些方法和开发的其它方法来作为对单个癌症数据集库的飞行测试和过剩之处核对,计算出来论据在每种癌症多种类型当中适用每个结果终点站的决定及情况(表格3)。每种结核病多种类型的存活终点站必需数通过一个主要飞行测试和过剩之处核对才被接受。33种癌当中的13种适用全部4个终点站:膀胱尿路上皮癌(BLCA)、睾丸上...
33种恶连续性癌当中的13种用到全部4个终点站:胃尿路上皮恶连续性癌(BLCA)、乳头鳞状蛋白质恶连续性癌(CESC)、结肠恶连续性癌(COAD)、食管恶连续性癌(ESCA)、头颈部鳞状蛋白质恶连续性癌(HNSC)、胃乳头状蛋白质恶连续性癌(KIRP)、大肠腺恶连续性癌(LUAD)、LUSC、OV、胰腺恶连续性癌(PAAD)、肉突起(SARC...
33种肿肿中都的13种适用全部4个终点站:膀胱尿路上皮肿肿(BLCA)、宫颈柱状细胞内肿肿(CESC)、结肠肿肿(COAD)、食管肿肿(ESCA)、头颈部柱状细胞内肿肿(HNSC)、大肠状细胞内肿肿(KIRP)、大肠腺肿肿(LUAD)、LUSC、OV、胰腺肿肿(PAAD)、肉肿(SARC)、大肠腺肿肿(STAD)和乳房内膜肿肿(UCEC)。相反,很难一...
作者使用 NLST 数据集训练 CoxPH (Cox Proportional Hazard) 预后模型,使用TCGA-肺腺癌数据集进行验证。提供从图像中提取的TME特征后,预后模型计算出病人的风险评分。根据风险评分是否高于中位数,将病人分为高低风险两组,高风险组预后显著差于低风险组, p = 0.0011,表示模型预测效果较好。