使用 scikit-learn,我构建了一个支持向量机,用于基本的手写数字检测问题。
我的总数据集包含 235 个观察值。我的观察由 1025 个特征组成。我知道使用支持向量机的优点之一是在这样的情况下,其中有少量具有大量特征的观察。
创建 SVM 后,我查看了我的混淆矩阵(下)...
Confusion Matrix:
[[ 6 0]
[ 0 30]]
...并意识到仅保留 15% 的数据进行测试(即 36 次观察)是不够的。
我的问题是:如何使用交叉验证解决这个小数据问题?