当我尝试使用 libsvm 对数据进行分类时遇到问题。我的训练和测试数据非常不平衡。当我对 svm 参数进行网格搜索并使用类的权重训练我的数据时,测试给出了 96.8113% 的准确度。但由于测试数据不平衡,所有正确的预测值都来自负类,大于正类。
我尝试了很多东西,从改变权重到改变 gamma 和成本值,但每次尝试我的归一化精度(考虑了正类和负类)都较低。使用默认的 grid.py 参数训练 50% 的正数和 50% 的负数,我的准确率非常低(18.4234%)。
我想知道问题是在我的描述中(如何构建特征向量),在不平衡中(我应该以其他方式使用平衡数据吗?)还是应该更改我的分类器?