11

separable 上的线性分类器可以有多个数据分类边界。这就是我们让 SVM 选择具有最大边距的边界的原因(对未见数据的泛化误差最小)。

SVM 分类是否总是产生唯一的解决方案(我们不会在所有可能的数据中得到两个最大边距边界)?

答案是否取决于硬边距 SVM 和软边距 SVM?

4

2 回答 2

10

是的,标准 SVM 的软和硬公式都是凸优化问题,因此具有独特的全局最优解。我想如果问题非常大,近似方法会足够简洁,以至于您将使用它们而不是精确求解器,然后您的数值求解技术可能无法找到全局最优值,因为它的权衡好处是减少搜索时间。

这些的典型方法是顺序最小优化——保持一些变量固定并优化变量的一小部分,然后一遍又一遍地重复不同的变量,直到你无法改进目标函数。鉴于此,我发现任何人都无法以不会产生全局最优的方式解决这些问题。

当然,您找到的全局最优值实际上可能并不适合您的数据。这取决于您的模型、嘈杂的类别标签等代表数据生成过程的程度。所以解决这个问题并不能保证你找到了绝对正确的分类器或任何东西。

以下是我在粗略搜索中找到的一些讲义:(链接

这是关于凸性声明的更直接链接:(链接

于 2012-09-26T21:10:50.520 回答
2

对于没有正则化的硬边距分类器,SVM 问题可以转换为具有线性约束的强制二次规划问题(假设存在解/正边距)。具有线性约束的强制二次规划问题具有独特的全局最小值,并且简单的优化方法(如梯度下降或感知器算法)可以保证收敛到全局最小值。参见例如

http://optimization-online.org/DB_FILE/2007/05/1662.pdf

对于软边距 SVM 和具有正则化项的 SVM,我认为存在唯一的全局最小值,并且通常的技术会收敛到全局最小值,但我不知道有任何证明可以涵盖所有可能性。

于 2012-09-26T20:27:57.500 回答