甚至包含了RNA类型,这样就能很容易的区分mRNA和lncRNA了,另外还包含的基因的名字,再也不用担心ID转换问题了。 这里除了有STAR-counts,还有TPM,FPKM和FPKM_UQ。这几个数据的具体计算方法可以参考TCGA官方文档 https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/ STAR-counts的计算比较...
这些对齐的拼接头文件也可用。 RNA 比对流程 2.RNA-Seq Alignment命令行参数 请注意,由于正在进行流程的开发和改进,从GDC门户下载的文件中的版本号可能会有所不同。 #STAR-2.4.2a###ForuserswithaccesstotheICGCpipeline:pythonstar_align.py\--genomeDir<star_index_path>\--FastqFileIn\--workDir<work_dir>...
在搜索框输入chol,选择第一个PR(project),TCGA-CHOL 2.在跳转的页面中,点击RNA-Seq后面的数字 3. 在新打开的页面中,点击左上角的Files 4.接下来就是不一样的地方了,可以看到在workflow type里面没有HTSeq-Counts了,取而代之的是STAR-Counts。我们就选择这个STAR-Counts。 你会发现STAR-Counts里面有88个文件...
metadata = FALSE, pipeline = "limma", Cond1type = "CCDC134_Low", Cond2type = "CCDC134_High", fdr.cut = 0.01, logFC.cut = 1, ) 共识别出873个差异表达基因 2. 定量相关 我们对其他基因与CCDC134基因进行相关性检验,由于基因较多,我们使用并行的方式来计算 library(future.apply) batch_cor <-...
最近发现,TCGA的RNAseq数据好像更新了。应该就是在2022年4月初这几天发生的事情。我们来看看具体有那些差别。我们还是以CHOL这套数据为例,来讲解一下如何下载和处理新版TCGA中的RNAseq数据。miRNA的数据并没有变化。 1.打开TCGA官网https://portal.gdc.cancer.gov/。在搜索框输入chol,选择第一个PR(project),TCGA...
2.RNA-Seq Alignment 命令行参数 请注意,由于正在进行流程的开发和改进,从GDC门户下载的文件中的版本号可能会有所不同。 # STAR-2.4.2a ### For users with access to the ICGC pipeline: python star_align.py \ --genomeDir<star_index_path>\ ...
在pipeline便可以选择四种流程进行下载,比如上面选择muse,除此之外,还可以选择varscan2,somaticsniper,mutect2等 轻松便可以下载了hg38的muf文件。 4.hg19的maf文件,便和我们下载RNAseq似曾相识,使用 GDCquery, GDCdownload and GDCpreprare 来下载 5.建立索引 ...
TCGA大作战——初步分析RNA-seq数据01 本篇为第一部分,主要记录重要资源地址以及TCGA数据的下载方式。名词及资源TCGA (The Cancer Genome Atlas):人类癌症基因组图谱,数据库,主要用来收集癌症病人癌组织及癌旁正常组织标本以及极少量正常人相应组织的对照标本(并非每种癌都有),通过多种高通量方法,获取DNA、RNA乃至...
1、TCGA 大作战初步分析 RNA-seq 数据 01本篇为第一部分, 主要记录重要资源地址以及 TCGA 数 据的下载方式。名词及资源 TCGA (The Cancer Genome Atlas) :人类癌症基因组图谱, 数据库, 主要用来收集癌症病 人癌组织及癌旁正常组织标本以及极少量正常人相应组织 的对照标本(并非每种癌都有) ,通过多种高通量方...
1. DNA-Seq Analysis Pipeline TCGA中的DNA测序主要用来分析肿瘤患者中的体细胞突变,和GATK的体细胞突变流程类似,前期都经过了一个预处理步骤,这里称之为co-cleanning, 流程示意如下 就是经典的sort->markduplicate->Realign->BQSR步骤,得到co-cleaned BAM文件。然后用配对的肿瘤和正常样本进行somatic variant calling...