所以我正在编写一个决策树程序。假设我有一个包含 1000 个实例的数据集。据我了解 - 通过交叉验证,我将数据集分成 900-100 个组。每次使用不同的 900 组来创建树并使用 100 组来测试它
我不明白的是这些问题: 1. 我用哪棵树作为我的最终决策树(选择错误最少的那棵不是一个好选择,因为我想这可能是因为过度拟合) 2 . 交叉验证是否仅用于估计最终树中的误差?3. 我发现了一些关于交叉验证的不同算法,一些使用相同的分割标准,还有一些使用不同的标准来选择最好的树——你能给我指出一个有信息的好地方,这样我就可以准确地弄清楚我是什么需要?或者解释一下你自己?
谢谢!