我正在使用 R 中的随机森林开发一个模型。数据有 2000 个 obs x 20 个特征。我要分类的目标类有 6 个级别。所有变量本质上都是分类的。
目标偏向一个类别,占观察的 65% 以上。其余 35% 分布在其他五个目标类别中。分布如下
Class A Class B Class C Class D Class E Class F Class G
0.660185185 0.002314815 0.0027777 0.0722222 0.181944444 0.013425926 0.067129630
我正在尝试使用 ROSE 或 SMOTE 来平衡数据集,但得到一个错误,即它们仅适用于二进制分类器。
R 中是否有可用的库来平衡多类数据集。目前模型的准确率非常低(大约 64%)。我希望平衡数据集可以提高准确性。
对此问题的任何帮助将不胜感激。
干杯-尼丁