python - 使用 scikit-learn，我如何在小数据集上学习 SVM？

Question

使用 scikit-learn，我构建了一个支持向量机，用于基本的手写数字检测问题。

我的总数据集包含 235 个观察值。我的观察由 1025 个特征组成。我知道使用支持向量机的优点之一是在这样的情况下，其中有少量具有大量特征的观察。

创建 SVM 后，我查看了我的混淆矩阵（下）...

Confusion Matrix:
[[ 6  0]
 [ 0 30]]

...并意识到仅保留 15% 的数据进行测试（即 36 次观察）是不够的。

我的问题是：如何使用交叉验证解决这个小数据问题？

score 1 · Accepted Answer

这正是交叉验证（及其泛化，如 Err^0.632）的用途。保留集只有在大量数据的情况下才合理。

1 回答 1