dataset - 二进制 SVM 分类器失败，有两个类：一个是大的，另一个是小的

Question

我正在尝试使用二进制支持向量机对一些像素进行分类。我的训练数据库由 28 个数据文件组成，有两个类，class1 的像素数为 16571，class2 的像素数为 313。

测试数据（每个文件）大约有 600 个像素，其中只有 6-10 个像素属于 2 类，其余像素属于 1 类。

我的问题是，在训练之后，当我尝试对数据进行分类时，SVM 会对 class1 中的所有像素进行分类。

我认为这可能是因为它从 class2 中看到的样本很少。但可用数据文件的数量有限（大约 35 个数据文件）。

如何训练 svm 并获得合理的结果？

谢谢您的帮助。

score 0 · Accepted Answer

SVM 可能确实对训练集大小的巨大差异很敏感。我建议尝试以下两种方法：

您当然可以同时使用这两种方法，即在一定程度上限制类 1 的训练数据的大小，然后使用成本参数进一步平衡类。

1 回答 1