0

我有一个不平衡的数据。66k:0 和 1k:1。我在我的训练集上尝试了随机过采样、SMOTE 和 SMOTE 的混合方法和欠采样。以下是我使用随机森林分类器针对不同策略的分类报告:

训练集(无重采样):

Accuracy:0.99
f1 score: 0.00
precision: 0.00
recall: 0.00
AUC: 0.66
Confusion matrix:
[[17767 0]
 [259   0]]

对于过采样策略:

Accuracy:0.99
f1 score: 0.00
precision: 0.00
recall: 0.00
AUC: 0.66
Confusion matrix:
[[17767 0]
 [259   0]]

对于 SMOTE:

Accuracy:0.77
f1 score: 0.06
precision: 0.03
recall: 0.48
AUC: 0.70
Confusion matrix:
[[13685 4082]
 [134   125 ]]

并且,对于具有欠采样的 SMOTE

Accuracy:0.93
f1 score: 0.06
precision: 0.04
recall: 0.17
AUC: 0.69
Confusion matrix:
[[16714 1053]
 [215   44  ]]

我不知道还能做些什么来改进模型。它们似乎都是可怕的指标。我开始认为特征数据是垃圾。你有什么建议?

4

0 回答 0