这是我们最常用的校正P-value控制假阳性率的方式。假设针对10000个基因进行了统计检验,对所有的原始P-value进行由小到大的排序分别为p1, p2, ..., p10000,校正后的FDR为:p1*10000/1, p2*10000/2, ..., p10000*10000/10000。与Bonferroni correction一致的地方是都乘以了检测总数,不一致的地方是BH算法在此...
这是我们最常用的校正P-value控制假阳性率的方式。假设针对10000个基因进行了统计检验,对所有的原始P-value进行由小到大的排序分别为p1, p2, ..., p10000,校正后的FDR为:p1*10000/1, p2*10000/2, ..., p10000*10000/10000。与Bonferroni correction一致的地方是都乘以了检测总数,不一致的地方是BH算法在此...
我们在生物数据统计分析中,经常会听到p-value,adjusted p-value,q-value以及False discovery rate(FDR)。比如最常见实验组和对照组的差异基因表达分析,除了获得一个p值(p-value),通常而言还会得到一个adjusted p-value或者FDR(false discovery rate)。那么他们之间到底有什么关系,为什么已经有了一个p-value来指征显...
这是我们最常用的校正P-value控制假阳性率的方式。假设针对10000个基因进行了统计检验,对所有的原始P-value进行由小到大的排序分别为p1, p2, ..., p10000,校正后的FDR为:p1*10000/1, p2*10000/2, ..., p10000*10000/10000。与Bonferroni correction一致的地方是都乘以了检测总数,不一致的地方是BH算法在此...
q-value是Storey和Tibshirani提出的基于p-value分布的FDR计量方法,具体见什么,你算出的P-value看上去像齐天大圣变的庙?。 如何尽量减少统计检验次数 我们看到上面的校正方法多于统计检测次数有关,统计检测次数越多,校正也会越强烈。有没有合适的办法来规避一些无意义的统计检验呢?
如果光看p值,G3也会算入显著。 这里我们可以把每个gene的q-value计算出来,转换上面的公式,得到: 列出表格, 即,根据该基因p值的排序对它进行放大,越靠前放大的比例越大,越靠后放大的比例越小,排序最靠后的基因的p值不放大,等于它本身。 我们也可以从可视化的角度来看待这个问...
在测序数据中,我们经常能在差异统计表格看到P-value以及FDR值。而在生信数据的分析中,也会经常对P-value进行FDR校正。这么做的目的是什么,FDR校正的原理又是什么呢? 首先我们来看P-value的定义:在假设检验中,当原假设(H0)为真时,所得到的样本观察结果或更极端结果出现的概率。 如果P-value很小,说明原假设为真...
ii)FDR校正后的p-value,即q-value FDR值的计算方法如下:1)对每个基因进行p-value的计算 假设观测到基因A对应的reads数为x,已知在一个大文库中,每个基因的表达量只占所有基因表达量的一小部分,在这种情况下,p(x)的分布服从泊松分布。已知样本一中唯一比对到基因组的总reads数为N1,样本二中唯一比对到...
BH法有时也称fdr法,是我们最常用的多重假设检验校正方法,可以很好的控制假阳性率和维持统计检出力。R函数p.adjust可用来计算一组p-value校正后的fdr值。(DESeq2中返回的padj也是用BH方法控制的FDR) q-value是什么? q-value是Storey和Tibshirani提出的基于p-value分布的FDR计量方法,具体见什么,你算出的P-value看...
在我们组学生物的生信技术支持QQ群(787097236)里,经常有同学询问如何筛选差异的基因(蛋白)。已经计算了表达量和p value值,差异的基因(蛋白)太多了,如何筛选。其中最为关键的是需要对p value进行校正。 基本概念: 1. 零假设:在随机条件下的分布。 2. p值:在零假设...