`names<-`(c("Tumor_Sample_Barcode", "time", "status", "T", "N", "M", "stage", "gender")) 处理一下临床信息,去掉 NA 或 不明确的样本 data.cate <- inner_join(paad.tmb, clin, by = "Tumor_Sample_Barcode") %>% filter_at(vars(T, N, M), all_vars(!endsWith(., "X") &...
注:该文件为TCGA肿瘤样本的突变信息,其中: Tumor_Sample_Barcode: 肿瘤样本的唯一标识符 Hugo_Symbol: 基因的标准符号,即基因名 NCBI_Build: 基因组参考版本号 Chromosome: 染色体号 Start_Position: 变异的起始位置 End_Position: 变异的终止位置 Strand: 染色体链的方向 Variant_Classification: 变异的分类,如突变、...
Tumor_Sample_Barcode: 肿瘤样本的唯一标识符 Hugo_Symbol: 基因的标准符号,即基因名 NCBI_Build: 基因组参考版本号 Chromosome: 染色体号 Start_Position: 变异的起始位置 End_Position: 变异的终止位置 Strand: 染色体链的方向 Variant_Classification: 变异的分类,如突变、插入、删除等 Variant_Type: 变异的类型,如...
准确的说01对我们来说非常重要,这个sample的数字是从01-29的,其中01-09是tumor,也就是癌症样本;其中10-29是normal,也就是癌旁;这个对于每个研究者才是最重要的,当然,这个必须记住,只有记住这个,后期才能做差异分析,生存分析,如果连肿瘤样本和癌旁样本都区分不了,何谈后续分析呢?
laml = read.maf(maf="STAD.mutectAdjustBarcode.maf.txt",clinicalData="clinical.STAD.tsv")#read.maf()函数有两个最关键的参数maf,clinicalData,这个两个数据框只需要共同的Tumor_Sample_Barcode,这个一点用起来非常方便,很多帖子并没有提到此处,详细信息可参考maftools的官网。注意:TCGA直接下载的maf文件第16列...
>expm=exprSet[,k]>>VHL_mut=str_sub(as.character(+as.data.frame(mut[mut$Hugo_Symbol=='VHL','Tumor_Sample_Barcode'])[,1]),+1,12)>>library(dplyr)>VHL_mut=mut%>%+filter(Hugo_Symbol=='VHL')%>%+as.data.frame()%>%+pull(Tumor_Sample_Barcode)%>%+as.character()%>%+str_sub(1...
> getSampleSummary(maf) Tumor_Sample_Barcode Frame_Shift_Del Frame_Shift_Ins In_Frame_Del In_Frame_Ins Missense_Mutation Nonsense_Mutation 1: TCGA-F7-A624 248 57 7 1 2174 63 2: TCGA-CV-7568 4 1 1 1 1645 105 3: TCGA-D6-6516 5 1 2 0 1331 78 4: TCGA-CR-7402 28 9 1 1 69...
(必须字段):Hugo_Symbol,Chromosome,Start_Position,End_Position,Reference_Allele,Tumor_Seq_Allele2,Variant_Classification,Variant_Type andTumor_Sample_Barcode(样本名,此字段沟通样本的maf文件和临床信息的关键,前者).laml=read.maf(maf="STAD.mutectAdjustBarcode.maf.txt",clinicalData="clinical.STAD.tsv")#...
barcode的前三个字段即病人的编号, 第四个字段是组织的类型,01就是实体瘤(solid tumor),11就是这个人的正常组织,A则是指这块组织的份数的编号,从A-Z, A应该是指第一份。 TSS即Tissue Source Site code https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes ...
接触和分析过TCGA数据的朋友肯定会经常处理TCGA barcode的7个编码信息,每个编码信息用横杠-隔开,如下所示: 第一次分析TCGA数据看着这么长的样品编号感觉很是难以理解(例如:TCGA-3M-AB46-01A-11D-A410-08,TCGA-3M-AB47-01A-22D-A410-08,TCGA-B7-5816-01A-21D-1600-08,TCGA-B7-5818-01A-11D-1600-08),但是...