machine-learning - 在 sklearn 中使用支持向量机时如何实际使用验证集

Question

在使用 SVM 时，我发现在原始数据集上执行三向拆分是一种很好的做法，例如 70/15/15 拆分。

此拆分对应于训练的 %70、测试的 %15 和所谓的“验证”的 %15。

我很清楚为什么这是一个好的做法，但我不确定实际执行此操作所需的具体细节。许多在线资源讨论了重要性，但我似乎无法找到该过程的明确（或至少是算法）描述。例如，sklearn 在这里讨论它，但在给出任何可靠的工具之前就停止了。

这是我的想法：

如果有人能指出一个好的资源的方向，我将不胜感激。

score 3 · Accepted Answer

验证集在所有监督学习算法中的作用是找到算法参数的最优值（如果有的话）。

将数据拆分为训练/验证/测试数据后，训练算法的最佳实践如下：

有一些执行交叉验证测试的高级方法。像 libsvm 这样的一些库包含它们：k-fold cross validation。

在 k 折交叉验证中，您将训练数据随机分成 k 个相同大小的部分。您使用 k-1 部分进行训练并与剩余部分进行交叉验证。您使用不同的子集执行此 k 次，最后使用平均值。

维基百科是一个很好的来源：

1 回答 1