混淆矩阵

混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。

* * True Class True Class
* * p n
Hypothesized Class Y True Positive False Positive
Hypothesized Class N False Negative False Positive

精准、召回与打扰率

precision 精准

策略识别真实 bad case True Positive/策略识别的 bad case True Positive + False Positive

风控识别出 100 个案子,实际上有 20 个是真的,精准率为 20%。

注意,这里我们并不知道所有案子有多少。这里讨论的是已经找出的案子的精准率

recall 召回

策略识别真实 bad case True Positive /所有真实的 bad case True Positive + False Negative

总共发生了 200 个案子,有 20 个被识别出来了,召回率为 10%。

打扰率

总共有 10000 个案子,风控拦截了 200 个,打扰率为 2%。

accuracy 准确率

假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,系统查找出50个,其中只有40个是真正的正样本,计算上述各指标。

TP: 将正类预测为正类数 40
FN: 将正类预测为负类数 20
FP: 将负类预测为正类数 10
TN: 将负类预测为负类数 30

准确率(accuracy) = 预测对的/所有 = (TP+TN 40+30)/(TP+FN+FP+TN 实际上是样本全集) = 70%

精确率(precision) = TP/(TP+FP) = 80%

召回率(recall) = TP/(TP+FN) = 2/3

最难的是准确率:准确率意味着把已经找到的正样本和(根据推测被找到的)负样本除以整个样本空间。