每周一句话,既有工作又有生活,人生没那么有趣。
虽然指南以前介绍过AUC的评价指标,但AUC能够很好地描绘模型整体性能的高低。 除了AUC,还有一个指标可以达到同样的效果。 那是ks。 不仅如此,ks还可以给出最佳的划分阈值。 那么,ks具体是什么指标? 计算方法与AUC有什么不同?
ks评价指标ks(Kolmogorov-Smirnov)评价指标通过测定好坏样本累计分布之间的差异,评价模型的风险划分能力。 其计算方法与AUC的计算方法基本相似。 首先回顾一下评价指标所需的四个概念。 如下所示。
伪阳性率(FPR)
即使判定为正例也不是真例的比率真阳性率(TPR)
在正例中也被判定为真例的比率为伪阴性率(FNR)
判定为负例也不是真负例的比率真阴性率(TNR)
文中有即使是负的例子也被判定为真的负的例子的比率AUC的计算方式(如何直观地理解AUC评价指标? 中说明的很清楚,建议先读一遍,然后继续读这个句子。 会更顺畅。 与以前的AUC说明相比,以上四个概念的介绍更新为用“比率”描述会更准确。
但是,AUC只是评价了模型的整体训练效果,并没有指出如何分类来达到估计效果最好。
ks和AUC一样,综合真阳性率(TPR )和假阳性率)两个指标测定模型的好坏。 区别在于ks取的是TPR和FPR差值的最大值
你怎么理解这最大的差距? 首先仔细考虑一下TPR和FPR的意思。 在二进制分类中,通常在sigmoid函数的输出和0-1之间采用阈值分隔,假定0是正例标签,1是负例标签,其中当阈值从0改变到1时,TPR表示所有正例中小于阈值的比例。 同样,FPR表示小于阈值的所有负例子、所有负例子中的比率。
设横轴为阈值,纵轴为TPR和TPR,值域均为[ 0,1 ]。 以此方式,如从直观上理解的,当横轴从0改变为1时,TPR越快提升,模型效果越好;反之,FPR越快提升,模型效果就越差。ks的值是图中的最大差异,并且此时的横轴值是最佳阈值。
同样,可以使用AUC讲座的例子直观地说明ks。 此处,训练的二分类器预测10个正负样本(正例5个、负例5个),按得分从高到低的顺序得到的最佳预测结果是[1、1、1、0、0、0、0、0、0、0、0、0、0、0、0],即5个
画出那个ks折线。 首先,如前所述,绘制TPR、FPR根据阈值(采样比率)而变化的折线图。 请参照下图。
从上图可以看出,TPR上升最快,FPR上升最慢,确实表明预测结果最好。 然后,计算它们的差分,制作ks折线图,如下所示。
上图中的ks值为1,最佳分区阈值为0.5,这是最理想的结果。 ks值域为[ 0,1 ],一般来说,如果ks的值大于0.2,就可以判断模型是有效的。
为了更好地理解,我们将预测结果序列稍微更改为[ 1,1,1,1,0,1,0,0,0 ],以了解ks值是如何变化的。
可见,上图的ks值为0.8,最佳分区阈值为0.4或0.6。
现在,您可以直观地理解ks评估指标了。 请期待下一节的内容。
感谢您的聆听。 后续文章每周日发送,敬请期待。 欢迎致电小斗公众号对半独白!