KS值计算公式为KS = max(TPR - FPR),其中TPR为真正类率,FPR为假正类率。该公式通过寻找两类样本累积分布差值最大值,衡量模型的分类区分能力,尤其适用于信用评分等场景。 一、核心指标定义 TPR(真正类率): TPR表示模型正确识别正例(如信用评分中的“好客户”)的能力,计算公式为: [ TP...
则KS=max(abs(cumgoodratioi−cumbadratioi))KS=max(abs(cumgoodratioi−cumbadratioi)) KS需要TPR和FPR两个值: 真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+ FN),刻画的是分类器所识别出的正实例占所有正实例的比例。 假正类率(false positive rate, FPR),计算公式为FPR= FP /...
1.原始定义公式:KS = max(TPR - FPR) 2.实际应用公式:KS = max(N0(p<pb) / N0 - N1(p<pb) / N1) 其中,TPR(True Positive Rate)是查全率,是1的样本被检查出来的概率;FPR(False Positive Rate)是虚警率,是0的样本被误检成1的概率。N0和N1分别代表类0和类1的样本数量。p<pb表示切点以下,类0的...
阈值为100分时,所有人都被判断为坏人,此时所有坏人全部落网,即TPR=1;所有好人全部被误判为坏人,即FPR=1 阈值为0到100分之间的分数时,每一个阈值都会得到对应的TPR和FPR值,比如TPR=0.7,FPR=0.4 我们依次把阈值依次定位0、10、20,一直到100,就会得到一串TPR和FPR数据的集合,然后我们把FPR作为横轴,TPR作为纵轴,把...
总的来说,KS曲线是两条线,其横轴是阈值,纵轴是TPR与FPR。两条曲线之间之间相距最远的地方对应的阈值,就是最能划分模型的阈值。 而KS值是MAX(TPR – FPR),即两曲线相距最远的距离。 不同的产品,合适的KS值范围都不一样,需要结合实际情况去摸索。
KS曲线:横坐标是阈值,纵坐标是TPR与FPR之差。KS值就是KS曲线的峰值,计算公式为KS=max(TPR-FPR)。例如,当阈值等于40%时,TPR为80%,FPR为25%,所以(TPR-FPR)值为55%,这个值是所有阈值条件下最大的(TPR-FPR)值,因此,这个模型的KS值为55%。 ROC曲线:横坐标是FPR,纵坐标是TPR。虽然ROC曲线也是以阈值作为变...
从K-S曲线就能衍生出KS值,KS=max(TPR-FPR),即是两条曲线之间的最大间隔距离。当(TPR-FPR)最大时,也就是ΔTPR-ΔFPR=0,这和ROC曲线上找最优阀值的条件ΔTPR=ΔFPR是一样的。从这点也可以看出,ROC曲线、K-S曲线、KS值的本质是相同的。
step 1. 先按分数升序排列,计算某个阈值T下的TPR和FPR。 由于低于T,预测为bad(红色区域),反之预测为good(绿色区域)。红色区域内有样本的真实bad和good标签,我们统计以下2个指标: 1)TPR = 红色区域(预测为bad & 真实为bad) / 整体区域真实为bad
KS曲线的纵轴是表示TPR和FPR的值,就是这两个值可以同时在一个纵轴上体现,横轴就是阈值,,然后在两条曲线分隔最开的地方,对应的就是最好的阈值,也是该模型最好的AUC值,就比如是上图的AUC=0.810,下图中,一条曲线是FPR,一条是TPR。 KS值就是max(abs(TPR-FPR)),即:TPR和FPR只差最大的那个值。
fpr,tpr,thresholds= roc_curve(y_score, y_test)# y_score is score of positive label ks =max(tpr-fpr)# Note: tpr and fpr is ndarray print(ks) 参考: How to Measure the Quality of Credit Scoring Models https://www.zhihu.com/question/34820996?sort=created...