本文介绍另外两个指标:ROC-AUC和PR-AUC。 ROC曲线 ROC(Receiver Operating Characteristic)曲线的全称是受试者工作特征曲线。ROC曲线最早在二战期间用在电子工程和雷达工程中,用于军事目标检测。后来也被用在心理学、医学、机器学习等领域的模型效果评估。 它的纵坐标为TPR(true positive rate),也称为真正例率,表示...
模型的提升在 ROC-AUC 的坐标轴上体现非常小,FPR 从 0.1 降低到 0.01,而在 PR 曲线上 P 从 0.074 增加到 0.444。虽然在数值的倍数上看,FPR 是提高了 100 倍,更大,但是体现在曲线上,由于其数量级太小,并不会给人观感上提升的感觉;相反,PR-AUC 上的数量级比 ROC-AUC 大得多,有着肉眼可见的提升。所以...
PR_AUC对于不平衡数据集更为敏感,当正负样本数量差异较大时,PR_AUC能够更好地反映分类器的性能。 ROC_AUC在面对不平衡数据时,由于考虑了FPR,可能会相对较好地平衡正负样本的影响。 三、应用场景不同 PR_AUC适用于在关注正类样本较多的情况下,例如搜索引擎的结果排序等场景,更关注模型在预测为正类的样本中的准确...
连接以上 5 个点,得到上图中红色点划线,显然,此曲线下的面积等于 1,是 ROC-AUC 所能取到的最大值,这个例子对应的模型就是我们理想中的模型,所有正例对应的模型输出都大于负例的模型输出。绿色实现代表了某个我们训练的这是模型,其 ROC-AUC 值介于 0-1 之间。 PR-AUC 的构造和上述过程基本一致,只是需要再...
PR_AUC:指PR曲线下的面积。通过在 [0, 1] 范围内选取阈值 (threshold) 来计算对应的 Precision和 ...
所以在面对不平衡数据集的时候,ROC-AUC 貌似并不是最佳的选择,PR-AUC 更能体现出模型的性能提升。所以当类别相对来说较均衡时,可以使用 ROC-AUC,当类别极其不均衡时使用 PR-AUC 较好。那为什么不只使用 PR-AUC 呢?ROC-AUC 对于分类模型来说存在的意义是什么?看了许多文章多采用一个说法:从...
参考性能评估之PR曲线与ROC曲线。 ROC曲线 ROC曲线英文’receiver operating characteristic curve’,直译为“接受者操作特性曲线”,又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。 ROC曲线是在...
6.AUC:全称Area Under Curve,被定义为ROC曲线下的面积,取值范围在0.5到1之间 由于ROC在很多情况下不能说明哪个分类器更好,而AUC是一个数值,反映的ROC曲线的面积,数值越大,对应的分类器越好。 7.PR-AUC:即以Precision和Recall为坐标轴,选取不同的阈值画线, AUC即曲线的面积,面积越大,Precision和Recall都越接近...
PR-AUC PR曲线,是以P为 轴,以R为 轴,取不同的概率阈值得到不同的(p,r)点后画成的线。 为了解决P、R、F-Measure(即 )的单点局限性,得到一个能够反映全局的指标,使用PR-AUC/AP。同样地,PR-AUC值越大,或者说曲线越接近右上角(p=1, r=1),那么模型就越理想、越好。
模型评估【PR|ROC|AUC】 这里主要讲的是对分类模型的评估。 1、准确率(Accuracy) 准确率的定义是:【分类正确的样本】 / 【总样本个数】,其中分类正确的样本是不分正负样本的 优点:简单粗暴 缺点:当正负样本分布不均衡的情况(假设一种极端情况,正样本1个,负样本99个),此时即使一个比较差的模型(只会将所用...