0

我有非常不平衡的数据 (100:1),其中 1 部分是我感兴趣的(少数)类。我听说过采样(以及其他技术)是一种“处理”不平衡数据的方法。所以我所做的是通过将替换重新采样到一定比例(例如,2:1)来对少数类进行过采样。

然后我将这个新形成的(重新)样本分成训练和测试集,性能从 0.7、0.4、0.5 的精确率、召回率、F1 大幅提高到 0.97、0.97、0.97。

我做错了什么,因为它看起来好得令人难以置信吗?我应该保留测试集的原始分布,而只对训练集中的少数类进行过采样吗?

4

1 回答 1

2

如果我了解您构建集合的方式,那么很可能您的测试集中几乎所有“有趣”的点也在训练集中。您的模型可能是过拟合的,并且学习在不一定泛化的情况下准确地反刍训练数据,并且您无法检测到它,因为您没有使用来自训练集之外的数据来验证模型。在应用过采样之前将数据分成训练和测试应该可以防止这种情况。

于 2016-03-01T02:44:33.950 回答