3

当训练集中的示例太少时,如何使用 ID3 修剪决策树构建。

我不能把它分成训练、验证和测试集,所以这是不可能的。

是否有任何可能使用的统计方法或类似的方法?

4

1 回答 1

4

是的,当您拥有少量数据时,可以使用交叉验证来训练和修剪您的数据集。这个想法很简单。您将数据分成 N 组,并用其中的 N-1 组训练您的树。您用作修剪测试集的最后一组。然后你从 N 组中选择另一组省略,然后做同样的事情。重复此操作,直到您遗漏了所有集合。这意味着您将构建 N 棵树。您将使用这 N 棵树来计算树的最佳大小,然后使用该计算对整组数据进行训练以修剪该树。它比我在这里有效描述的要复杂,但这里有一篇关于如何将交叉验证适应 ID3 的文章。

决策树交叉验证

已经对交叉验证的正确分割进行了大量研究,并且发现 N=10 在给定的额外处理时间下给出了最好的结果。交叉验证将您的计算时间增加了很多(好 N 倍),但是当您拥有较少的数据量时,它可以克服少量的样本。而且由于您没有大量数据,这意味着使用交叉验证在计算上并不是那么糟糕。

于 2012-06-16T03:51:32.047 回答