2

使用 scikit-learn,我构建了一个支持向量机,用于基本的手写数字检测问题。

我的总数据集包含 235 个观察值。我的观察由 1025 个特征组成。我知道使用支持向量机的优点之一是在这样的情况下,其中有少量具有大量特征的观察。

创建 SVM 后,我查看了我的混淆矩阵(下)...

Confusion Matrix:
[[ 6  0]
 [ 0 30]]

...并意识到仅保留 15% 的数据进行测试(即 36 次观察)是不够的。

我的问题是:如何使用交叉验证解决这个小数据问题?

4

1 回答 1

1

这正是交叉验证(及其泛化,如 Err^0.632)的用途。保留集只有在大量数据的情况下才合理。

于 2014-01-29T06:24:09.110 回答