2

我想知道对于具有非线性决策边界(例如高斯核)的大型/超大型数据集(5-15M+ 行)的支持向量机(SVM)的最先进的高效(近似)实现是什么?

我知道两种特殊的方法:一方面,这项使用随机梯度下降等的调查: http: //cseweb.ucsd.edu/~akmenon/ResearchExam.pdf

另一方面,有这些核心向量机/球向量机方法: http ://www.c2i.ntu.edu.sg/ivor/cvm.html

在哪一页我们可以找到两篇描述核心和球向量机的论文。

换句话说,我相信 SVM 对于手头的问题是相当合理的,但是如果我要使用标准的 SVM 实现(可能高达 n^3 的复杂性),我会受到样本量的限制。我正在寻找一种在时间复杂度低于 n^2 的情况下相当准确的“近似”实现。最快的此类实现是什么?它们在经验上运行良好还是在准确性上接近原始 SVM?

4

1 回答 1

1

我曾经尝试过FaLK-SVM,结果很有希望。该方法类似于核心向量机/球向量机,但使用带树的 k 近邻(覆盖树)来分离数据。链接上有一个 libSVM 实现。相应的论文描述了核心和球方法,但指出 k-最近邻(只是为了分离!)更好。

于 2014-02-20T13:41:00.990 回答