我对我的数据有一个奇怪的结果,我想知道你或其他人是否对此有任何见解.. 我有大约 5000 个数据和大约 16000 个属性,我训练了我的 RBF svm(我在 matlab 上使用 libsvm)每个类有 2000 个数据(我只有两个类)并用其余的(大约 1000 个数据)进行测试。
奇怪的部分是结果的所有概率估计都具有相同的值,因此属于一类的 100% 测试数据导致正确预测,其余 100% 导致错误,就像无论输入是什么,它将预测第一堂课..
我尝试交叉验证以找到 RBF 的最佳参数,但准确度与 50% 相差不远(您可以猜到原因,一半 100% 正确,一半 100% 错误),最大准确度为 51.25%。
然后我尝试了线性支持向量机,即使概率估计值至少与以前不同,结果仍然显示出相同的趋势,尽管不像以前那样 100%(一类为 97%,另一类为 4%),所以是的,主要问题是它有利于一类,无论测试数据是什么。
我没有尝试对数据进行中心化或缩放,这会有什么不同吗?
你们有什么想法吗?我真的很感激。谢谢。