0

所以我正在编写一个决策树程序。假设我有一个包含 1000 个实例的数据集。据我了解 - 通过交叉验证,我将数据集分成 900-100 个组。每次使用不同的 900 组来创建树并使用 100 组来测试它

我不明白的是这些问题: 1. 我用哪棵树作为我的最终决策树(选择错误最少的那棵不是一个好选择,因为我想这可能是因为过度拟合) 2 . 交叉验证是否仅用于估计最终树中的误差?3. 我发现了一些关于交叉验证的不同算法,一些使用相同的分割标准,还有一些使用不同的标准来选择最好的树——你能给我指出一个有信息的好地方,这样我就可以准确地弄清楚我是什么需要?或者解释一下你自己?

谢谢!

4

1 回答 1

2

Cross validation用于估计您的模型预测的准确度。

最好的树应该包含最好的分类器。即很好地分离数据的属性,因此您可以使用该属性开始构建决策树。

我建议您搜索WikipediaUncle Google获取更多信息decision trees

于 2013-02-08T13:13:06.853 回答