对于单细胞数据集,通常使用主成分分析(PCA)等传统方式进行聚类,但是这些方式在处理连续性的数据时可能会表现不佳。因此,通常使用流行学习算法(Manifold learning algorithms)来学习数据的连续结构。流行学习算法可以更好地捕捉数据中的复杂结构和连续变化,有助于更准确地划分苏聚集。其他聚类算法还有:K-均值(K-means)、...
注意:此数据集的计数也可以从10X Genomics免费获得,并用作Seurat教程的的示例数据。 Metadata 除了原始数据之外,我们还需要收集有关数据的信息;这称为元数据。人们往往拿到数据就会直接来开始探索这些数据,但如果我们对这些数据的来源样本一无所知,那就没有太大的意义了。 下面提供了我们数据集的一些相关元数据: 使用...
这一类图基本在单细胞文章中都会出现。 以下代码来自于Seurat 教程,以10x数据集Peripheral Blood Mononuclear Cells (PBMC)为例, 主要R functions有Seurat:: RunUMAP() and Seurat::DimPlot(); Seurat:: RunTSNE() and Seurat::DimPlot()。 从t-SNE和UMAP的对比中可以看出,UMAP的效果图更紧凑,群簇之间分隔更大...
在此强调,使用多组学数据集的目的是为了演示和评估,建议用户将这些方法应用于分别独立收集的scRNA-seq和scATAC-seq数据集。 加载数据并单独处理每种模式 外周血单个核细胞(PBMC)的多组学数据集可以通过10x Genomics公司获得。为了方便用户轻松地加载和探索数据,该数据集也被包含在的SeuratData包中。分别导入RNA和ATAC的...
获取公开的人类单细胞基因表达数据集(scRNA-seq 数据集)极大地促进了科学家们对复杂生物系统和各种疾病病因的了解。然而,可访问性的提高也引起了人们对捐赠细胞的个人隐私以及他们的私人健康信息在未经同意的情况下被共享的可能性的更大关注。以前有关这些隐私泄露的研究主要集中在批量基因表达——测量来自组织或样本...
scRNA-seq数据中存在dropout效应,指的是由于细胞状态的多样性,存在着某些基因可能低估或完全缺失表达值的现象。因此通过恢复细胞中基因的表达可以缓解dropout效应,使研究人员对细胞状态和功能有更全面和深入的了解。为了评估scAMAC在重构scRNA-seq数据中的有效性,作者在两个细胞注释数据集Klein and Zeisel进行了实验。...
scRNA-seq的关键应用之一是基于细胞聚类或分类来确定细胞亚群。NMF被用于在单细胞转录组数据中分离亚群,并已被证明以更高的准确性和鲁棒性优于PCA。同样的,开发SinNLRR是为了通过非负和低秩表示提供强大的基因表达子空间聚类。 最先进的聚类方法,如k-means算法,也已应用于scRNA-seq数据集,并基于此应用,开发了SC3方...
为了克服scRNA-seq数据中任何单个基因表达中广泛的技术噪音,Seurat根据细胞从整合的可变性最高的基因的表达中得出的PCA分数将细胞分配到不同的簇,每个PC实质上代表一个结合了相关基因集信息的“metagene”。因此,确定要在分群步骤中包括多少PC对于确保我们捕获数据集中存在的大多数变异或细胞类型是很重要的。
接下来,使用scATAC-seq数据得到的基因活性评分,与scRNA-seq中的基因表达量数据一起,作为典型相关性分析的输入。对scRNA-seq数据集中所有被鉴定为变异性高的基因进行这样的量化分析。 # quantify gene activitygene.activities<-GeneActivity(pbmc.atac,features=VariableFeatures(pbmc.rna))# add gene activities as a...
scRNA-seq数据中存在dropout效应,指的是由于细胞状态的多样性,存在着某些基因可能低估或完全缺失表达值的现象。因此通过恢复细胞中基因的表达可以缓解dropout效应,使研究人员对细胞状态和功能有更全面和深入的了解。为了评估scAMAC在重构scRNA-seq数据中的有效性,作者在两个细胞注释数据集Klein and Zeisel进行了实验。作者...