6

如果我在 lrge 训练集上训练 SVM,并且如果类变量是 True 或 False,那么与训练集中的 False 值的数量相比,True 值很少会影响训练模型/结果吗?他们应该平等吗?如果我的训练集 True 和 False 的分布不均等,我该如何处理以使我的训练尽可能高效地完成?

4

2 回答 2

3

数据不平衡很好,因为 SVM 应该能够为与不太可能的实例相关的错误分类错误分配更大的惩罚(例如,在您的情况下为“True”),而不是分配相等的错误权重,这会导致不受欢迎的分类器将一切分配给大多数人。但是,使用平衡的数据可能会获得更好的结果。这一切都取决于你的数据,真的。

您可以人为地扭曲数据以获得更平衡的数据。你为什么不检查这篇论文: http: //pages.stern.nyu.edu/~fprovost/Papers/skew.PDF

于 2012-08-01T01:10:04.853 回答
2

我的经验是,标准的 SVM 分类器在不平衡数据上并不能很好地工作。我在 C-SVM 中遇到过这种情况,而对于 nu-SVM 来说情况更糟。也许您想看看P-SVM,它提供了一种特别适合不平衡数据的模式。

于 2014-02-21T22:00:39.787 回答