混淆矩阵

混淆矩阵的每一列代表了预测类别，每一列的总数表示预测为该类别的数据的数目；每一行代表了数据的真实归属类别，每一行的数据总数表示该类别的数据实例的数目。

*	*	True Class	True Class
*	*	p	n
Hypothesized Class	Y	True Positive	False Positive
Hypothesized Class	N	False Negative	False Positive

精准、召回与打扰率

策略识别真实 bad case True Positive/策略识别的 bad case True Positive + False Positive

风控识别出 100 个案子，实际上有 20 个是真的，精准率为 20%。

注意，这里我们并不知道所有案子有多少。这里讨论的是已经找出的案子的精准率。

策略识别真实 bad case True Positive /所有真实的 bad case True Positive + False Negative

总共发生了 200 个案子，有 20 个被识别出来了，召回率为 10%。

总共有 10000 个案子，风控拦截了 200 个，打扰率为 2%。

假设我们手上有60个正样本，40个负样本，我们要找出所有的正样本，系统查找出50个，其中只有40个是真正的正样本，计算上述各指标。

TP: 将正类预测为正类数 40
FN: 将正类预测为负类数 20
FP: 将负类预测为正类数 10
TN: 将负类预测为负类数 30

准确率(accuracy) = 预测对的/所有 = (TP+TN 40+30)/(TP+FN+FP+TN 实际上是样本全集) = 70%

精确率(precision) = TP/(TP+FP) = 80%

召回率(recall) = TP/(TP+FN) = 2/3

最难的是准确率：准确率意味着把已经找到的正样本和（根据推测被找到的）负样本除以整个样本空间。