5

我对我的数据有一个奇怪的结果,我想知道你或其他人是否对此有任何见解.. 我有大约 5000 个数据和大约 16000 个属性,我训练了我的 RBF svm(我在 matlab 上使用 libsvm)每个类有 2000 个数据(我只有两个类)并用其余的(大约 1000 个数据)进行测试。

奇怪的部分是结果的所有概率估计都具有相同的值,因此属于一类的 100% 测试数据导致正确预测,其余 100% 导致错误,就像无论输入是什么,它将预测第一堂课..

我尝试交叉验证以找到 RBF 的最佳参数,但准确度与 50% 相差不远(您可以猜到原因,一半 100% 正确,一半 100% 错误),最大准确度为 51.25%。

然后我尝试了线性支持向量机,即使概率估计值至少与以前不同,结果仍然显示出相同的趋势,尽管不像以前那样 100%(一类为 97%,另一类为 4%),所以是的,主要问题是它有利于一类,无论测试数据是什么。

我没有尝试对数据进行中心化或缩放,这会有什么不同吗?

你们有什么想法吗?我真的很感激。谢谢。

4

1 回答 1

4

有几件事可能会出错,但以下是您似乎缺少的主要内容:

  1. 扩展您的数据:是的,这重要。它可以对生成的分类器的性能产生重大影响。LIBSVM 作者制作的初学者指南(附录 B)中提供了一个很好的示例。确保在训练和测试数据上使用相同的比例因子。
  2. 您没有调整C参数。根据你的描述,听起来C太低了。这导致分类器具有非常简单的参数(alphas)但有大量的错误分类。该指南还很好地解释了为什么以及如何进行参数调整。
于 2013-06-28T07:54:02.487 回答