SVM 是否比具有许多类的 ANN 更好?您可能指的是支持向量机本质上是一类或二类分类器的事实。事实上,它们是并且没有办法修改 SVM 算法来分类两个以上的类。
SVM 的基本特征是分离最大边距超平面,其位置是通过最大化其与支持向量的距离来确定的。然而,支持向量机通常用于多类分类,这是通过围绕多个支持向量机分类器的处理包装器完成的,这些分类器以“一对多”模式工作——即,训练数据显示给对这些实例进行分类的第一个支持向量机作为“ I 类”或“非 I 类”。然后将第二类中的数据显示给第二个 SVM,该 SVM 将该数据分类为“ II 类”或“非 II 类”"等等。在实践中,这非常有效。因此,正如您所料,与其他分类器相比,SVM 的卓越分辨率不仅限于两类数据。
据我所知,文献中报道的研究证实了这一点,例如,在标题为“支持向量机的性别”的文章中,SVM 报告了 12 平方像素图像中性别识别(男性/女性)的显着更好的分辨率与一组传统的线性分类器相比;SVM 也优于 RBF NN,以及大型集成 RBF NN)。但似乎有大量类似的证据表明 SVM 在多类问题中的优越性能:例如,SVM 在蛋白质折叠识别和时间序列预测方面优于 NN 。
我在过去十年左右阅读这些文献的印象是,大多数精心设计的研究——由熟练配置和使用这两种技术的人,以及使用足以抵抗分类的数据以在分辨率上引起一些有意义的差异——报告 SVM 相对于 NN 的优越性能。但正如您的问题所暗示的那样,该性能增量在某种程度上似乎是特定于域的。
例如,在从阿拉伯文字文本中识别作者的比较研究中,NN 的表现优于 SVM;在一项比较信用评级预测的研究中,两个分类器的分辨率没有明显差异;在高能粒子分类研究中也报道了类似的结果 。
我从学术文献中的多个来源中读到,随着训练数据的大小减小,SVM 的性能优于 NN。
最后,从这些比较研究的结果中可以概括的程度可能非常有限。例如,在一项比较 SVM 和 NN 在时间序列预测中的准确性的研究中,研究人员报告说,SVM 确实优于传统的(在分层节点上反向传播)NN,但 SVM 的性能与RBF(径向基函数)NN。
[SVM 是否优于 ANN] 在在线环境中?SVM 不用于在线设置(即增量训练)。支持向量机的本质是分离超平面,其位置由少量的支持向量决定。因此,即使是一个额外的数据点,原则上也会显着影响这个超平面的位置。
在像强化学习这样的半监督案例中呢?在 OP 对此答案发表评论之前,我不知道以这种方式使用的神经网络或支持向量机——但它们确实如此。
SVM 最广泛使用的半监督变体被命名为Transductive SVM (TSVM),由Vladimir Vapnick(发现/发明传统 SVM 的同一个人)首次提到。除了它叫什么之外,我对这种技术几乎一无所知,它遵循转导原理(大致横向推理——即从训练数据到测试数据的推理)。显然TSV是文本分类领域的首选技术。
是否有更好的无监督版本的 SVM?我不相信 SVM 适合无监督学习。分离基于由支持向量确定的最大边距超平面的位置。这很容易成为我自己有限的理解,但我不知道如果那些支持向量没有标记(即,如果你事先不知道你想要分离什么)会发生这种情况。无监督算法的一个关键用例是当你没有标记数据或者你有并且它严重不平衡时。例如,在线欺诈;在这里,您的训练数据中可能只有少数数据点被标记为“欺诈性账户”(并且通常具有可疑的准确性),而其余 >99% 的数据点被标记为“非欺诈性”。在这种情况下,是 SVM 的典型配置,是一个不错的选择。特别是,训练数据由标记为“非欺诈”和“unk”(或其他一些标签以表明它们不在类中)的实例组成——换句话说,“在决策边界内”和“在决策边界外” 。”
最后我想提一下,在他们“发现” 20 年后,SVM 是 ML 库中根深蒂固的成员。事实上,与其他最先进的分类器相比,始终如一的卓越分辨率是有据可查的。
他们的血统既是他们在许多严格控制的研究中记录的卓越表现的功能,也是他们概念上的优雅。W/r/t 后一点,考虑多层感知器 (MLP),尽管它们通常是优秀的分类器,但由数值优化程序驱动,在实践中很少找到全局最小值;此外,该解决方案没有概念意义。另一方面,构建 SVM 分类器的核心数值优化实际上确实找到了全局最小值。更重要的是,解决方案是实际的决策边界。
不过,我认为 SVM 的声誉在过去几年中有所下降。
我怀疑的主要原因是 NetFlix 的竞争。NetFlix 强调矩阵分解的基本技术的分辨能力,更重要的是组合分类器的能力。早在 NetFlix 之前,人们就将分类器组合在一起,但更多的是作为一种偶然的技术,而不是分类器设计的一个属性。此外,许多用于组合分类器的技术非常易于理解和实现。相比之下,SVM 不仅很难编码(在我看来,这是迄今为止最难在代码中实现的 ML 算法),而且很难配置和实现为预编译库——例如,必须选择内核,结果对数据如何重新缩放/标准化等非常敏感。