machine-learning - SVM Hard margin：为什么不平衡的数据集可能会导致不好的结果？

Question

我可以理解为什么 soft Margin SVM 会受到不平衡训练集的影响：最小化优化问题的误差可以驱动将所有数据训练分类为负（如果 |negative examples| >> |positive examples| ）。

但是，在硬边距 SVM 中，我没有松弛变量和 C 常数，所以我不想最小化误差，因为硬边距 SVM 预计没有错误（对于问题的定义）！硬边距 SVM 只是搜索支持向量并最大化类之间的边距，支持由支持向量“识别”的超平面；现在，如果我在负支持向量（即负类支持超平面）“后面”有很多点或相同数量的正点，这些不会影响我的边距和分离超平面；

它总是相同的，因为它仅取决于支持向量，并且无论我是否增加点数，它们总是相同的！为什么硬边距 SVM 会受到不平衡数据集的影响，或者我的推理有误？谢谢！

score 4 · Accepted Answer

对于真正的硬边距 SVM，任何数据集都有两个选项，无论其平衡程度如何：

训练数据在特征空间中是完全可分离的，您会得到一个训练错误为 0 的结果模型。
训练数据在特征空间中是不可分离的，你不会得到任何东西（没有模型）。

此外，请注意，您可以在给定足够复杂的内核（例如，具有非常大 gamma 的 RBF）的任何数据集上训练硬边距 SVM。但是，生成的模型通常很糟糕，因为它完全过度拟合了训练数据。

machine-learning - SVM Hard margin：为什么不平衡的数据集可能会导致不好的结果？

1 回答 1

Related

Reference