1

我正在尝试在数据集上使用 R 中的 rpart 包构建二元分类树,但在模型上实现的整体准确度太高(99.8%?),而且树很大,有很多分裂。

这是否表明模型过度拟合?最小成本复杂度修剪不会导致修剪后的树与 cp=0 时完全生长的树有很大不同。

如果是,这是否表明数据集可能不平衡,因此我应该使用 SMOTE 对少数类(~15%)进行过采样?

再说一次,如果数据集不平衡,如何从 CART 模型的结果中确定?

最后,在使用 SMOTE 平衡不平衡的数据集时,可以肯定地说,减少数据集的大小是合理的牺牲吗?

很抱歉有很多问题,非常感谢您的帮助。

4

0 回答 0