0

如果您有一个包含各种类实例的训练集,并且它是高度不平衡的。你会用什么策略来平衡它?

真实世界人口信息:7类,其中最小的占5%。

关于训练集的信息:频率与总体频率有很大不同。

这里有两个选项:

  • 将其偏向于总体类别频率。
  • 使其偏向均匀分布。

有了偏见,我打算使用诸如 SMOTE 或成本敏感分类之类的东西。

我不确定要遵循哪种策略。我也愿意接受其他建议。您如何评价该战略的成功?

4

1 回答 1

0

正如您所提到的,对于培训,您有两种选择。要么平衡你的数据集(如果你有大量的数据和/或少量的特征,这样丢弃一些样本不会影响学习),或者根据它们的频率对不同的类使用不同的权重。后者通常很简单,但取决于您选择的方法和库。

一旦你训练了你的分类器(在你的训练集上有一些先验),如果你的先验发生变化(训练和人口中的不同频率),你可以轻松地更新预测概率。有一个很好的概述如何替换先前的信息,这比我在一篇简短的文章中解释得更好。看看组合概率,第 3 节(替换先验信息)。

于 2013-05-17T08:20:11.337 回答