machine-learning - 如何解释几乎完美的准确率和 AUC-ROC 但 f1 分数、准确率和召回率为零

Question

我正在训练 ML 逻辑分类器以使用 python scikit-learn 对两个类进行分类。它们处于极度不平衡的数据中（大约 14300:1）。我得到了几乎 100% 的准确率和 ROC-AUC，但准确率、召回率和 f1 分数为 0%。我知道准确性通常在非常不平衡的数据中没有用，但为什么 ROC-AUC 测量也接近完美？

from sklearn.metrics import roc_curve, auc

# Get ROC 
y_score = classifierUsed2.decision_function(X_test)
false_positive_rate, true_positive_rate, thresholds = roc_curve(y_test, y_score)
roc_auc = auc(false_positive_rate, true_positive_rate)
print 'AUC-'+'=',roc_auc

1= class1
0= class2
Class count:
0    199979
1        21

Accuracy: 0.99992
Classification report:
             precision    recall  f1-score   support

          0       1.00      1.00      1.00     99993
          1       0.00      0.00      0.00         7

avg / total       1.00      1.00      1.00    100000

Confusion matrix:
[[99992     1]
 [    7     0]]
AUC= 0.977116255281

上面使用逻辑回归，下面使用决策树，决策矩阵看起来几乎相同，但 AUC 有很大不同。

1= class1
0= class2
Class count:
0    199979
1        21
Accuracy: 0.99987
Classification report:
             precision    recall  f1-score   support

          0       1.00      1.00      1.00     99989
          1       0.00      0.00      0.00        11

avg / total       1.00      1.00      1.00    100000

Confusion matrix:
[[99987     2]
 [   11     0]]
AUC= 0.4999899989

score 75 · Accepted Answer

必须了解 AUC ROC 与准确度/精度等“逐点”指标之间的关键区别。ROC 是阈值的函数。给定一个输出属于每个类的概率的模型（分类器），我们预测具有最高概率（支持）的类。但是，有时我们可以通过更改此规则并要求一个支持比另一个大 2 倍才能实际归类为给定类来获得更好的分数。这通常适用于不平衡的数据集。这样，您实际上是在修改类的学习先验以更好地拟合您的数据。ROC 着眼于“如果我将这个阈值更改为所有可能的值会发生什么”，然后 AUC ROC 计算这样一条曲线的积分。

最后：

高 AUC ROC 与低 f1 或其他“点”指标，意味着您的分类器当前做得不好，但是您可以找到其分数实际上相当不错的阈值
低 AUC ROC 和低 f1 或其他“点”指标，意味着您的分类器当前做得不好，即使拟合阈值也不会改变它
高 AUC ROC 和高 f1 或其他“点”指标，意味着您的分类器目前做得不错，并且对于许多其他阈值值，它会做同样的事情
低 AUC ROC 与高 f1 或其他“点”指标，意味着您的分类器目前做得不错，但是对于许多其他阈值值 - 这是非常糟糕的

machine-learning - 如何解释几乎完美的准确率和 AUC-ROC 但 f1 分数、准确率和召回率为零

1 回答 1

Related

Reference