一、DESeq2、edgeR、limma的使用 强烈建议查看官方说明书进行这三种差异分析的学习,链接在文章末尾给出。 注意,这三个包都需要输入counts进行分析,不能用tpm、fpkm等归一化后的数据。 承接上节RNA-seq入门实战(三):在R里面整理表达量counts矩阵和RNA-seq入门实战(二):上游数据的比对计数——Hisat2+ featureCounts...
准备工作已经完成了,接下来进行的就是limma的主体部分。注意进行lmFit时的基因表达矩阵的基因名要放到行名,不要搞错了。 在进行makeContrasts的时候,记得改好分组信息,要和前面的分组矩阵保持一致。 #limma data<-t(data) #最终矩阵的基因名在行名,记得检查一下不要搞错了 fit <- lmFit(data, design) contrast....
和前面一样,使用的数据依然来自GSE145894,使用STAR进行比对,然后使用StringTie获取其Count值和FPKM以及TPM值。对于Count值,使用DESeq2,而对于FPKM值,在log2之后使用limma进行差异分析。为避免固定阈值导致的误差,我使用mean(logFC)+2*sd(logFC)作为差异阈值,以P<0.05作为显著性阈值。 下面,进入我们的正题部分。 1、...
前提:对于基因芯片的差异表达分析而言,由于普遍认为其数据是服从正态分布,因此差异表达分析无非就是用t检验和或者方差分析应用到每一个基因上。高通量一次性找的基因多,于是就需要对多重试验进行矫正,控制假阳性。目前在基因芯片的分析用的最多的就是limma。 但是,高通量测序(HTS)的read count普遍认为是服从泊松分布...
通常认为Count数据不符合正态分布而服从泊松分布。对于count数据来说,用limma包做差异分析,误差较大 DE...
limma是一个很强大的用于分析芯片的R包,也可以用于RNA-Seq的差异分析 以两个组比较为例:首先输入count表达矩阵,这里也跟其他差异分析R包一样,不要输入已经标准化的数据。 本文主要参考:https://www.bioinfo-scrounger.com/archives/115/ library(limma) library(edge) counts <- read.csv("raw_counts.csv",ro...
plotMDS()是limma包中的方法,绘制MDS图,使用无监督聚类方法展示出了样品间的相似性(或差异)。可据此查看各样本是否能够很好地按照分组聚类,评估试验效果,判别离群点,追踪误差的来源等。 plotMDS(dgelist_norm, col = rep(c('red', 'blue'), each = 3)) ...
2.DESeq2,EdgeR和limma是三种R语言中常用的差异表达分析工具包,可以用于分析RNA-seq或microarray等高通量数据的差异表达。 DESeq2采用数据归一化和去除批次效应的方法,以消除样本之间的技术变异。负二项式分布模型:DESeq2 使用负二项式分布模型来描述基因计数数据,因为这种分布可以更好地处理RNA-Seq数据中的离散性和过...
三、差异分析的三巨头是哪些以及有什么区别? 到目前为止,Bulk RNA-seq的差异分析主要涉及三种R包(又称为差异分析的三巨头):limma, edgeR, DESeq2。 下面先提供一下3种R包的官网使用说明: limma: 使用手册:https://bioconductor.org/packages/devel/bioc/vignettes/limma/inst/doc/usersguide.pdf ...