差异分析以及后面标准化这里使用的是Deseq2这个包来完成,首先构建dds对象,构建这个对象需要两个文件,一...
#02去除低质量序列和接头 #双端测序数据 for i in `cat $RAWDATA/sampleID.txt` do trimmomatic PE -threads 4 \ $RAWDATA/${i}_1.fastq.gz $RAWDATA/${i}_2.fastq.gz \ $OUT/${i}_1_paired_clean.fq.gz \ $OUT/${i}_1_unpair_clean.fq.gz \ $OUT/${i}_2_paired_clean.fq.gz \ ...
双端测序数据要加–split-files,否则解压后两端的数据不会分开,难以被其他软件读取 如果所用分析软件支持读取gzip,建议加上–gzip,将解压后的数据用gzip压缩,避免占用过多空间 fastq-dump --split-files --gzip xxx.sra (三)测序数据质控与过滤: fastp 输出HTML和JSON报告,前者方便阅读,后者方便软件读取 单端:fas...
levels=c("Normal","Tumor"),ordered=F)#表达矩阵数据校正exprSet<-tpmsboxplot(exprSet,outline=FALSE,notch=T,col=group_list,las=2)library(limma)exprSet=normalizeBetweenArrays(exprSet)boxplot(exprSet,outline=FALSE,notch=T,col=group_list,las=2)#判断数据是否需要转换exprSet<-log2(expr...
cg=names(tail(sort(apply(PHex,1,sd)),200))##选两百个去做热图。 PHex<-PHex[cg,]PHex=t(scale(t(PHex)))###查看scale处理后数据的范围fivenum(PHex)###目的是避免出现极大极小值影响可视化的效果 ###2,-2PHex[PHex>1.2]=1.2PHex[PHex<-1.2]=-1.2library(pheatmap)pheatmap(PHex)##这个画的比较...
使用GSVA需要输入基因表达矩阵和基因集。 基因集即为我们上一步所得list;基因表达矩阵可以使用logCPM、logRPKM、logTPM(GSVA参数kcdf选择"Gaussian",默认)或counts数据(参数kcdf选择"Poisson")。 GSVA还支持BiocParallel,可设置参数parallel.sz进行多核计算。 下面选取基因集go_list和logTPM数据进行示范 ...
1.DESeq2、 edgeR、limma的使用 2.三类差异分析软件的结果比较——相关性、韦恩图 3.选取差异基因绘制火山图和热图 一、DESeq2、edgeR、limma的使用 强烈建议查看官方说明书进行这三种差异分析的学习,链接在文章末尾给出。 注意,这三个包都需要输入counts进行分析,不能用tpm、fpkm等归一化后的数据。
由于基于液滴的scRNA-seq数据集中存在大量空液滴,因此可以通过空液滴建模分析细胞悬液中的RNA构成和丰度来校正这一影响。最近开发的SoupX使用这种方法直接校正count matrix。另外,在下游分析中直接忽略这些有强影响的输入型基因也是处理这个问题的一个实用方法。
RNA-seq的counts值,RPM, RPKM, FPKM, TPM 的异同 RNAseq数据,下载GEO中的FPKM文件后该怎么下游分析 相信大家听完了我B站的RNA-seq分析流程后,对这个数据的应用方向都不陌生。代码也很简单,如果你有Linux基础,基本上一两个小时就可以完成数据分析流程,拿到表达矩阵啦。就是: ...
GSVA方法的基本原理 GSA是一个以log2微阵列表达值或RNA-seq计数形式的基因表达矩阵和一个基因集数据库。 累积密度函数(KCDF)的核估计。这两个图显示了两个模拟表达谱,模拟了来自微阵列和RNA-seq数据的6个样本。x轴对应的是4个样本中每个基因表达量较低,另外2个样本中表达量较高的表达量。KCDF尺度在左y轴,...