2

我可以理解为什么 soft Margin SVM 会受到不平衡训练集的影响:最小化优化问题的误差可以驱动将所有数据训练分类为负(如果 |negative examples| >> |positive examples| )。

但是,在硬边距 SVM 中,我没有松弛变量和 C 常数,所以我不想最小化误差,因为硬边距 SVM 预计没有错误(对于问题的定义)!硬边距 SVM 只是搜索支持向量并最大化类之间的边距,支持由支持向量“识别”的超平面;现在,如果我在负支持向量(即负类支持超平面)“后面”有很多点或相同数量的正点,这些不会影响我的边距和分离超平面;

它总是相同的,因为它仅取决于支持向量,并且无论我是否增加点数,它们总是相同的!为什么硬边距 SVM 会受到不平衡数据集的影响,或者我的推理有误?谢谢!

4

1 回答 1

4

对于真正的硬边距 SVM,任何数据集都有两个选项,无论其平衡程度如何:

  1. 训练数据在特征空间中是完全可分离的,您会得到一个训练错误为 0 的结果模型。
  2. 训练数据在特征空间中是不可分离的,你不会得到任何东西(没有模型)。

此外,请注意,您可以在给定足够复杂的内核(例如,具有非常大 gamma 的 RBF)的任何数据集上训练硬边距 SVM。但是,生成的模型通常很糟糕,因为它完全过度拟合了训练数据。

于 2013-07-20T17:57:53.620 回答