9

我在谷歌上搜索过这个问题,但我找不到以简单而详细的方式解释这个算法的东西。

例如,我知道 id3 算法根本不使用剪枝,所以如果你有一个连续的特征,预测成功率会很低。

所以C4.5为了支持连续特性它使用了剪枝,但这是唯一的原因吗?

我也不能真正理解在 WEKA 应用程序中,置信因子究竟如何影响预测的效率。置信度越小,算法的剪枝就越多,但是剪枝和预测的准确性之间的相关性是什么?修剪得越多,预测就越好还是越差?

谢谢

4

1 回答 1

17

剪枝是一种减小决策树大小的方法。这将降低训练数据的准确性,但(通常)会提高未见数据的准确性。它用于缓解过度拟合,您可以在训练数据上获得完美的准确性,但是您学习的模型(即决策树)非常具体,以至于它不适用于除训练数据之外的任何东西。

一般来说,如果增加剪枝,在训练集上的准确率会更低。然而,WEKA 确实提供了各种东西来更好地估计准确度,即训练/测试拆分或交叉验证。例如,如果您使用交叉验证,您会在某个地方发现修剪置信度因子的“最佳位置”,它修剪得足以使学习的决策树在测试数据上足够准确,但不会在训练数据。然而,这个最佳位置在哪里取决于您的实际问题,而可靠地确定它的唯一方法是尝试。

于 2012-06-02T22:39:37.460 回答