python - 类权重与欠采样/过采样

Question

例如，在不平衡分类（使用 scikit-learn）中，平衡类（即将 class_weight 设置为平衡）与使用 SMOTE 进行过采样有什么区别？一个与另一个的预期效果是什么？

score 7 · Accepted Answer

类权重通过对具有更多（或更少）权重的类给予更多（或更少）惩罚来直接修改损失函数。实际上，通过故意使模型偏向于对较高权重类（少数类）进行更准确的预测，基本上牺牲了一些预测较低权重类（不平衡数据集的多数类）的能力。

过采样和欠采样方法本质上也为特定类别赋予了更多权重（重复观察会重复对这些特定观察的惩罚，从而在模型拟合中给予它们更大的影响），但由于通常在训练中发生数据拆分，这将产生略微不同结果也一样。

1 回答 1