我有非常不平衡的数据 (100:1),其中 1 部分是我感兴趣的(少数)类。我听说过采样(以及其他技术)是一种“处理”不平衡数据的方法。所以我所做的是通过将替换重新采样到一定比例(例如,2:1)来对少数类进行过采样。
然后我将这个新形成的(重新)样本分成训练和测试集,性能从 0.7、0.4、0.5 的精确率、召回率、F1 大幅提高到 0.97、0.97、0.97。
我做错了什么,因为它看起来好得令人难以置信吗?我应该保留测试集的原始分布,而只对训练集中的少数类进行过采样吗?
我有非常不平衡的数据 (100:1),其中 1 部分是我感兴趣的(少数)类。我听说过采样(以及其他技术)是一种“处理”不平衡数据的方法。所以我所做的是通过将替换重新采样到一定比例(例如,2:1)来对少数类进行过采样。
然后我将这个新形成的(重新)样本分成训练和测试集,性能从 0.7、0.4、0.5 的精确率、召回率、F1 大幅提高到 0.97、0.97、0.97。
我做错了什么,因为它看起来好得令人难以置信吗?我应该保留测试集的原始分布,而只对训练集中的少数类进行过采样吗?