我正在处理一个类极度不平衡的数据集(正类的百分比约为 0.1%),并探索了许多不同的采样技术来帮助提高模型性能(由 AUPRC 测量)。由于我只有几千个正类示例和几百万个负类示例,因此我主要探索下采样。总的来说,我发现当在反映类真实分布的不平衡测试集上进行评估时,这种方法几乎没有导致模型改进。
然而,作为一项实验,我尝试对训练集和测试集进行下采样,并发现性能提高了一个数量级(10 倍)。这一发现对于 XGBoost 和简单的全连接 MLP 模型都成立。
这对我来说表明该模型实际上可以区分类别,但我不知道如何在更平衡的训练集上训练时调整模型以在不平衡的训练集上评估时获得类似的性能增益。有什么建议么?