tree - 决策树交叉验证问题

Question

所以我正在编写一个决策树程序。假设我有一个包含 1000 个实例的数据集。据我了解 - 通过交叉验证，我将数据集分成 900-100 个组。每次使用不同的 900 组来创建树并使用 100 组来测试它

我不明白的是这些问题： 1. 我用哪棵树作为我的最终决策树（选择错误最少的那棵不是一个好选择，因为我想这可能是因为过度拟合） 2 . 交叉验证是否仅用于估计最终树中的误差？3. 我发现了一些关于交叉验证的不同算法，一些使用相同的分割标准，还有一些使用不同的标准来选择最好的树——你能给我指出一个有信息的好地方，这样我就可以准确地弄清楚我是什么需要？或者解释一下你自己？

谢谢！

score 2 · Accepted Answer

Cross validation用于估计您的模型预测的准确度。

最好的树应该包含最好的分类器。即很好地分离数据的属性，因此您可以使用该属性开始构建决策树。

我建议您搜索Wikipedia并Uncle Google获取更多信息decision trees

tree - 决策树交叉验证问题

1 回答 1

Related

Reference