我正在创建一个 n=3410 的决策树。目标值包含 6 个唯一值。这些 n=3410 中的每一个都具有这 6 个值之一。用于创建模型的数据集中值的分布是:
1 - 242 2 - 917 3 - 645 4 - 488 5 - 261 6 - 841
但是,当根据这些数据创建模型时,值 1 和 5 的错误率是 100%。根节点错误率也超高——73%
我试图了解可能导致此问题的原因。我看到这两个值在集合中的相对出现率较低,但在统计上并不显着。我根本无法解释根节点错误。
我已经尝试调整树并操纵数据集本身,但我仍然始终在矩阵中得到大约 60% 的总体错误。我并不真正理解这意味着什么或如何改进它 - 或者它是否只是我正在使用的数据。