负二项分布算是scRNA-seq数据分析的模型中广泛应用的数据分布了,由此开发出的差异表达与缺失值填补(单细胞领域习惯称为imputation)方法实用性也更强,比如edgeR[1], DESeq[2] ,SAVER[3]等等。 零膨胀负二项分布 在广泛应用负二项分布的同时,人们也发现scRNA-seq数据还有一个特点,那就是零值非常多,下图给出了...
而且,任何基因的表达量都不能是负数,这些数据并不符合正态分布,用于表征表达量的counts是非连续的(芯片信号是连续的),RNA-seq数据的离散通常是高度扭曲的,方差往往会大于均值……,就这些奇怪的特征,使得准确估计方差并没有想象的那么容易。
2 在RNA-Seq中,每个基因会对应多少个读段是一个计数型的随机变量,计数型随机变量分布类型通常就是...
测到的reads数目非常多,而属于某一个基因的reads数又非常少,相当于进行了很多次取样(测到很多reads)而测到某一个基因属于一个小概率事件,小概率事件发生的概率分布符合泊松分布。
可以理解为Var(X)≠E(X)取而代之的有Var(X)=E(X)+1k⋅E2(X)所以说,方差与平均的关系被改变...
创新点:吉林大学李向涛教授课题组基于最优传输理论,联合bulk RNA-seq数据,提出了一个分布无关的深度学习模型,可准确恢复单细胞转录组数据中缺失的基因表达,为揭示细胞间的复杂交互和调控机制提供了全新的工具。 关键词:Advanced Science,单细胞转录组,最优传输,数据恢复 ...