svm - libsvm 上的结果只支持两个类中的一个类

Question

我对我的数据有一个奇怪的结果，我想知道你或其他人是否对此有任何见解.. 我有大约 5000 个数据和大约 16000 个属性，我训练了我的 RBF svm（我在 matlab 上使用 libsvm）每个类有 2000 个数据（我只有两个类）并用其余的（大约 1000 个数据）进行测试。

奇怪的部分是结果的所有概率估计都具有相同的值，因此属于一类的 100% 测试数据导致正确预测，其余 100% 导致错误，就像无论输入是什么，它将预测第一堂课..

我尝试交叉验证以找到 RBF 的最佳参数，但准确度与 50% 相差不远（您可以猜到原因，一半 100% 正确，一半 100% 错误），最大准确度为 51.25%。

然后我尝试了线性支持向量机，即使概率估计值至少与以前不同，结果仍然显示出相同的趋势，尽管不像以前那样 100%（一类为 97%，另一类为 4%），所以是的，主要问题是它有利于一类，无论测试数据是什么。

我没有尝试对数据进行中心化或缩放，这会有什么不同吗？

你们有什么想法吗？我真的很感激。谢谢。

score 4 · Accepted Answer

有几件事可能会出错，但以下是您似乎缺少的主要内容：

扩展您的数据：是的，这很重要。它可以对生成的分类器的性能产生重大影响。LIBSVM 作者制作的初学者指南（附录 B）中提供了一个很好的示例。确保在训练和测试数据上使用相同的比例因子。
您没有调整C参数。根据你的描述，听起来C太低了。这导致分类器具有非常简单的参数（alphas）但有大量的错误分类。该指南还很好地解释了为什么以及如何进行参数调整。

1 回答 1