我有一个不平衡的数据。66k:0 和 1k:1。我在我的训练集上尝试了随机过采样、SMOTE 和 SMOTE 的混合方法和欠采样。以下是我使用随机森林分类器针对不同策略的分类报告:
训练集(无重采样):
Accuracy:0.99
f1 score: 0.00
precision: 0.00
recall: 0.00
AUC: 0.66
Confusion matrix:
[[17767 0]
[259 0]]
对于过采样策略:
Accuracy:0.99
f1 score: 0.00
precision: 0.00
recall: 0.00
AUC: 0.66
Confusion matrix:
[[17767 0]
[259 0]]
对于 SMOTE:
Accuracy:0.77
f1 score: 0.06
precision: 0.03
recall: 0.48
AUC: 0.70
Confusion matrix:
[[13685 4082]
[134 125 ]]
并且,对于具有欠采样的 SMOTE
Accuracy:0.93
f1 score: 0.06
precision: 0.04
recall: 0.17
AUC: 0.69
Confusion matrix:
[[16714 1053]
[215 44 ]]
我不知道还能做些什么来改进模型。它们似乎都是可怕的指标。我开始认为特征数据是垃圾。你有什么建议?