在使用 SVM 时,我发现在原始数据集上执行三向拆分是一种很好的做法,例如 70/15/15 拆分。
此拆分对应于训练的 %70、测试的 %15 和所谓的“验证”的 %15。
我很清楚为什么这是一个好的做法,但我不确定实际执行此操作所需的具体细节。许多在线资源讨论了重要性,但我似乎无法找到该过程的明确(或至少是算法)描述。例如,sklearn 在这里讨论它,但在给出任何可靠的工具之前就停止了。
这是我的想法:
- 使用训练集训练算法
- 使用测试集查找错误率
- ?? 调整参数
- 使用验证集再次获取错误率
如果有人能指出一个好的资源的方向,我将不胜感激。