机器学习的几个概念
混淆矩阵
混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。
* | * | True Class | True Class |
---|---|---|---|
* | * | p | n |
Hypothesized Class | Y | True Positive | False Positive |
Hypothesized Class | N | False Negative | False Positive |
精准、召回与打扰率
precision 精准
策略识别真实 bad case True Positive/策略识别的 bad case True Positive + False Positive
风控识别出 100 个案子,实际上有 20 个是真的,精准率为 20%。
注意,这里我们并不知道所有案子有多少。这里讨论的是已经找出的案子的精准率。
recall 召回
策略识别真实 bad case True Positive /所有真实的 bad case True Positive + False Negative
总共发生了 200 个案子,有 20 个被识别出来了,召回率为 10%。
打扰率
总共有 10000 个案子,风控拦截了 200 个,打扰率为 2%。
accuracy 准确率
假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,系统查找出50个,其中只有40个是真正的正样本,计算上述各指标。
TP: 将正类预测为正类数 40
FN: 将正类预测为负类数 20
FP: 将负类预测为正类数 10
TN: 将负类预测为负类数 30
准确率(accuracy) = 预测对的/所有 = (TP+TN 40+30)/(TP+FN+FP+TN 实际上是样本全集) = 70%
精确率(precision) = TP/(TP+FP) = 80%
召回率(recall) = TP/(TP+FN) = 2/3
最难的是准确率:准确率意味着把已经找到的正样本和(根据推测被找到的)负样本除以整个样本空间。
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.