machine-learning - C4.5 决策树算法没有提高准确性

Question

我使用 10 倍交叉验证在 Weka 中运行了 C4.5 Pruning 算法。我注意到未修剪的树比修剪的树具有更高的测试精度。我不明白为什么修剪树没有提高测试准确性的原因？

score 1 · Accepted Answer

修剪减少了决策树的大小，这（通常）降低了训练的准确性，但提高了测试（未见）数据的准确性。修剪有助于减轻过度拟合，您可以在训练数据上获得完美的准确性，但模型（即决策树）在看到看不见的数据时就会失败。

因此，剪枝应该提高测试的准确性。从您的问题来看，很难说为什么修剪没有提高测试准确性。

但是，您可以检查您的训练准确性。只需检查剪枝是否会降低训练精度。如果不是，那么问题出在其他地方。可能你需要考虑特征的数量或数据集的大小！

1 回答 1