首先,需要分别计算参考数据集中每种注释细胞类型和查询数据集中每个细胞簇的平均转录组特征。 avg_expr_ref <- sapply(sort(unique(seurat_ref$celltype)), function(ct) rowMeans(seurat_ref@assays$RNA@data[,which(seurat_ref$celltype == ct)] )) avg_expr_ds1 <- sapply(levels(seurat_DS1@active.id...
ranked_expr_ds1 <- rank_matrix(seurat_DS1@assays$RNA@data[genes2cor,]) 最后,若需快速计算两个稀疏矩阵之间或一个稀疏矩阵与一个密集矩阵之间的皮尔逊相关性,建议使用qlcMatrix包中的corSparse函数。随后,如果查询数据集中某个细胞的转录组与某种细胞类型的相似性最高,就可以将该细胞归类为该参考细胞类型。
理论上,任何聚类方法都可以应用于 scRNA-seq 数据,包括层次聚类和 k-means 等常用于 bulk RNA-seq 数据的方法。但由于 scRNA-seq 数据样本量通常极大(如一次 10x 实验可能包含数千个细胞),这些方法运行速度非常慢。此外,由于 scRNA-seq 数据本身的稀疏性,即便通过 PCA 等降维处理去噪,不同细胞之间的差异也难以...
与批量RNA-seq类似,由于不同细胞捕获的RNA量存在差异,不能直接比较不同细胞中每个基因的捕获转录本数量。因此,需要进行标准化处理,以使不同细胞间的基因表达水平可以相互比较。单细胞RNA-seq数据分析中最常用的标准化方法与TPM(每百万读数的转录本数)概念类似 - 即对每个细胞的特征表达量进行标准化,然后乘以一个缩...
本系列开启R中单细胞RNA-seq数据分析教程,持续更新,欢迎关注,转发! 2.3. 使用 LIGER 进行数据整合 除了Harmony 和 Seurat,Evan Macosko 实验室开发的LIGAR也是被基准论文重点介绍的另一个数据整合工具。LIGAR 通过集成非负矩阵分解来识别共享和数据集特定的因素,以进行联合分析。该方法的详细数学原理可以在论文30504-...
本系列开启R中单细胞RNA-seq数据分析教程,持续更新,欢迎关注,转发! 简介 现在,很少有人只进行一次单细胞RNA测序实验并仅产生一份数据。原因很直接:目前的单细胞RNA测序技术每次只能捕捉到有限样本的分子状态。为了在多个实验和不同条件下对众多样本进行测量,通常需要对来自不同实验的单细胞RNA测序数据进行联合分析。虽...
本系列开启R中单细胞RNA-seq数据分析教程,持续更新,欢迎关注,转发! 10. 伪时间细胞排序 如前所述,在 UMAP 嵌入中看到的背侧端脑细胞形成的类似轨迹的结构,很可能代表了背侧端脑兴奋性神经元的分化和成熟过程。这个过程很可能是连续的,因此将其视为一个连续的轨迹,而非不同的聚类,更为合适。在这种情况下,进行...
本系列开启 R 中单细胞RNA-seq数据分析教程,持续更新,欢迎关注,转发! 细胞水平上的转录组相似性分析 第一种方法的目标是将两个数据集中的细胞簇或细胞类型进行关联。这种方法虽然简单,但存在一个明显的缺陷:两个数据集中的细胞簇或细胞类型可能没有以相同的分辨率定义,因此难以直接比较。这一问题在动态系统中尤为...
本系列开启R中单细胞RNA-seq数据分析教程,持续更新,欢迎关注,转发! 8. 细胞聚类 分析scRNA-seq数据时,绘制标记基因的特征图通常是一个良好的起点。然而,要深入理解数据中的异质性,需要通过无偏的方式将细胞分组,这就是聚类的作用。理论上,任何聚类方法都可以应用于 scRNA-seq 数据,包括层次聚类和 k-means 等常用...
本系列开启R中单细胞RNA-seq数据分析教程,持续更新,欢迎关注,转发! 简介 现在,很少有人只进行一次单细胞RNA测序实验并仅产生一份数据。原因很直接:目前的单细胞RNA测序技术每次只能捕捉到有限样本的分子状态。为了在多个实验和不同条件下对众多样本进行测量,通常需要对来自不同实验的单细胞RNA测序数据进行联合分析。虽...