各位小伙伴们大家好!今天带大家学习一下数据挖掘经常用到的一个数据库——TCGA数据库的数据下载。首先我们要知道TCGA数据库即肿瘤基因组图谱计划,是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和…
多年前我就系统性的介绍过:TCGA的pan-caner资料大全(以后挖掘TCGA数据库就用它)还专门指出了癌症的somatic突变的maf文件问题:TCGA数据库maf突变资料官方大全。起初TCGA数据库的全部数据都是提供下载的,包括fastq,bam,vcf, 但是呢,后来因为保护病人隐私,就只开放maf格式的somatic突变数据下载。癌症的somatic突变概念需要...
都是如此,以癌症为单位拿到数据集后,进而去筛选符合要求的病人。相当于是数据框取子集。但是GDC官网里面的数据信息存放单位是样品,每次都是根据要求下载指定的数据即可,无需取子集。 其实GDC官网也是有R包接口,就是TCGA数据库R包集大成者TCGAbiolinks,可以看到其教程非常丰富 https://www.bioconductor.org/packages/rel...
TCGA是最大的多组学数据集之一,涉及33种不同类型的癌症、超过 20000个样本,包括外显子组测序、RNA 测序、microRNA 测序、拷贝数变异、蛋白质组和甲基化组。已经开发了几种在线工具来提供TCGA数据的生物信息分析。GEPIA2,以在泛癌水平和特定癌症亚型方式上进行基因表达定量。癌症基因组学的cBioPortal包含来自包括TCGA在...
33种癌当中的13种适用全部4个终点站:膀胱尿路上皮癌(BLCA)、睾丸上皮细胞线粒体癌(CESC)、肺癌(COAD)、食管癌(ESCA)、多毛上皮细胞线粒体癌(HNSC)、肾状线粒体癌(KIRP)、呼吸系统胰脏(LUAD)、LUSC、OV、胰胰脏(PAAD)、肉疣(SARC)、胃胰脏(STAD)和乳房内膜癌(UCEC)。相反,很难一个终点站的有嗜铬线...
33种恶连续性癌当中的13种用到全部4个终点站:胃尿路上皮恶连续性癌(BLCA)、乳头鳞状蛋白质恶连续性癌(CESC)、结肠恶连续性癌(COAD)、食管恶连续性癌(ESCA)、头颈部鳞状蛋白质恶连续性癌(HNSC)、胃乳头状蛋白质恶连续性癌(KIRP)、大肠腺恶连续性癌(LUAD)、LUSC、OV、胰腺恶连续性癌(PAAD)、肉突起(SARC...
33种肿肿中都的13种适用全部4个终点站:膀胱尿路上皮肿肿(BLCA)、宫颈柱状细胞内肿肿(CESC)、结肠肿肿(COAD)、食管肿肿(ESCA)、头颈部柱状细胞内肿肿(HNSC)、大肠状细胞内肿肿(KIRP)、大肠腺肿肿(LUAD)、LUSC、OV、胰腺肿肿(PAAD)、肉肿(SARC)、大肠腺肿肿(STAD)和乳房内膜肿肿(UCEC)。相反,很难一...
第一步:筛选 ESCA 不同亚型样本 从左上角的‘Select Land’中选择 TCGA_B37 即可切换到TCGA数据集;基于左侧过滤条件 ’Tumor Type’ 筛选 ESCA;在右侧选择‘Grouping – Histological Type’则可以获得ESCC和EAC 对应的样本。第二步:临床指标关联分析和生存分析 在左侧的‘Select View’中选择‘Clinical ...
33种胃癌当中的13种常用全部4个起点:输尿管尿路上皮胃癌(BLCA)、外阴上皮细胞会细胞会胃癌(CESC)、结肠胃癌(COAD)、食管胃癌(ESCA)、褶部上皮细胞会细胞会胃癌(HNSC)、肾状细胞会胃癌(KIRP)、肺腺胃癌(LUAD)、LUSC、OV、胰腺胃癌(PAAD)、肉肿(SARC)、胃腺胃癌(STAD)和子宫丙型肝炎(UCEC)。相反,没一个...
33种腺癌中都的13种可用全部4个起点:膀胱尿路上皮腺癌(BLCA)、乳头状表皮蛋白质腺癌(CESC)、结肠腺癌(COAD)、食管腺癌(ESCA)、头颈部表皮蛋白质腺癌(HNSC)、肾状蛋白质腺癌(KIRP)、肾腺腺癌(LUAD)、LUSC、OV、胰腺腺癌(PAAD)、肉病变(SARC)、胃部腺腺癌(STAD)和乳房内膜腺癌(UCEC)。忽略,没一个起点的有...