如果您有一个包含各种类实例的训练集,并且它是高度不平衡的。你会用什么策略来平衡它?
真实世界人口信息:7类,其中最小的占5%。
关于训练集的信息:频率与总体频率有很大不同。
这里有两个选项:
- 将其偏向于总体类别频率。
- 使其偏向均匀分布。
有了偏见,我打算使用诸如 SMOTE 或成本敏感分类之类的东西。
我不确定要遵循哪种策略。我也愿意接受其他建议。您如何评价该战略的成功?
如果您有一个包含各种类实例的训练集,并且它是高度不平衡的。你会用什么策略来平衡它?
真实世界人口信息:7类,其中最小的占5%。
关于训练集的信息:频率与总体频率有很大不同。
这里有两个选项:
有了偏见,我打算使用诸如 SMOTE 或成本敏感分类之类的东西。
我不确定要遵循哪种策略。我也愿意接受其他建议。您如何评价该战略的成功?
正如您所提到的,对于培训,您有两种选择。要么平衡你的数据集(如果你有大量的数据和/或少量的特征,这样丢弃一些样本不会影响学习),或者根据它们的频率对不同的类使用不同的权重。后者通常很简单,但取决于您选择的方法和库。
一旦你训练了你的分类器(在你的训练集上有一些先验),如果你的先验发生变化(训练和人口中的不同频率),你可以轻松地更新预测概率。有一个很好的概述如何替换先前的信息,这比我在一篇简短的文章中解释得更好。看看组合概率,第 3 节(替换先验信息)。