validation - 这两棵树的交叉验证如何工作？

Question

我在 weka 有 1 棵树（ID3 或 J48）。它只有 25 个训练集。它学习了 100% 的准确率。我认为这对于训练集的准确性来说太高了。我如何了解天气是否存在过度拟合问题？（我想使用这 25 个火车数据本身的测试集——因为我没有任何测试）并且我知道交叉验证有利于停止过度拟合，但我想在使用交叉验证之前证明它。实际上我修剪了这棵树并比较了修剪树和未修剪树之间的交叉验证准确性。但我无法解释和理解过度拟合树和修剪树之间的准确性应该如何变化？（在这种情况下，我知道我的树有过度拟合的问题——但我怎么能推断出来呢？）其他方式呢？你能建议我吗？请注意，测试数据不可用。

score 0 · Accepted Answer

这就是我要做的：

取 25 个数据点并使用 10 折交叉验证。记录准确度（前提是你的类是平衡的/接近平衡的）
取训练精度并比较这两个精度值。如果它们有显着差异（比如 100% 的训练准确率与 85% 的测试准确率），那么这对我来说是过度拟合的信号。从那时起，我会尝试增加数据点并在增加数据点时绘制学习曲线。

注意：如果您没有任何测试数据，那么 CV 是唯一的选择，您从 CV 获得的结果应被视为测试结果。

validation - 这两棵树的交叉验证如何工作？

1 回答 1

Related

Reference