RNA-seq研究中使用不充分的生物学重复,导致统计功效低和测序资源的低效使用。 Hansen等人[2]通过比较芯片和测序数据,证明不同个体的生物学差异与检测技术无关,所以无论RNA测序还是芯片都无法消除生物学差异。同时,他们还提出了两个结论: 使用少量生物学重复时,研究中得到的基因差异显著结果可能是由于生物学变异,并且具...
3.测序深度和生物学重复; 4.RNA-seq结果差异包含了技术的和生物学的差异,还有同一组内的差异,这使得鉴别真正的生物学差异变得很困难。 其中的一些因素是我们可以控制的,比如从最开始样品差异的控制,生物学重复的数目,建库的质量,测序的深度。本文关注的是生物学重复和测序深度对RNA-seq数据差异表达分析的影响。 如...
2.2总数据量不变,生物学重复数与测序量最佳组合 如果n=3固定不变,单个样本数据量降低,TPR的变化 2.3总数据量不变,生物学重复数与测序量最佳组合 不同测序量与生物学重复数组合,对应的FPR变化 但是不同的生物学重复数和单样本测序量的组合,对假阳性率(FPR)的影响却较小。如图1(b),灰色实线代表不同生物学重复...
文献一中提出,许多RNA-seq研究中的生物学重复不足,导致统计功效低下,测序资源未得到充分利用。该研究在人乳腺癌MCF7细胞系中进行实验,发现当读数增加到每样本10μM后,继续增加数据量对检测差异表达基因的统计功效影响逐渐减小,而增加生物学重复数在所有数据量下均显著提高统计功效。另一篇文献探讨了RN...
RNA-Seq的测序数据的变异(variation)主要来源两个方面,第一个是生物学变异(Biological Variation),第二个是技术变异(technical variation) 个体差异性(生物重复) 指对同一个处理组中独立来源的重复样本分别进行独立分析,是整个实验的完全重复,如将具有同一基因型的多个细胞株进行独立地测定。由于遗传和环境等因素的影响...
生物学重复对筛选差异表达基因的影响: 测序深度不变,随着生物重复增加(n=2 -> n=12),差异表达基因检出率从0.44%提升到5.12%;FPR从0.04%上升到0.06%,最终再回到0.04%;TPR从3.26%提升到41.57%。总的来说,差异表达基因检出率和TPR有了明显上升,FPR保持不变。
生物学重复:对生物来源不同的样本的多次检测,比如来自三个个体的组织,用于捕获生物个体自身的变化;这个变化要么是待研究的对象,要么是噪音。相较之下,技术重复是对同样的样本做重复的操作—比如,对一个组织做三次处理。 Expression matrix表达矩阵:差异表达RNA-seq项目的核心数据文件。每一行代表一个RNA,比如基因或者...
该研究表明,至少应使用六个生物重复,这大大超过了RNA-seq文献中通常报道的三个或四个重复。最近的一项研究表明,四个重复可能就足够了,但它强调了测量生物学差异的必要性-例如,在确定出重复数之前先进行预实验。对于高度多样化的样本(例如来自癌症患者肿瘤的临床组织),可能需要进行更多重复才能检测出高可信度的变化。
虽然RNA-seq比芯片表现了更低的技术偏倚,但是生物系统中固有的随机变化都要求任何RNA-seq实验要做生物学重复。使用额外的重复能够确定异常样本,在必要情况下,在进行生物学分析之前,移除这些异常样本或降低这些异常样本的权重。确定生物学重复需要考虑几个因素,包括效应大小(effect size),组内变异,可接受的假阳性和假...
好的DGE RNA-seq实验设计对获取高质量和有生物意义的数据是至关重要的。特别需要考虑的是生物重复的数目、测序深度、采用单端还是双端测序。 生物重复与统计检出力 (replication and experimental power) 样品生物学重复数据选择1必要性2需要多少重复? 确定实验的正确重复数并不总是那么容易。一项48个重复的酵母研究表...