我是随机森林分类器的新手。我正在使用它对具有两个类的数据集进行分类。- 特征数量为 512。 - 数据比例为 1:4。即,75% 的数据来自第一类,25% 来自第二类。- 我正在使用 500 棵树。
分类器产生 21.52% 的袋外错误。第一类(由 75% 的训练数据表示)的每类误差为 0.0059。而第二类的分类误差非常高:0.965。
我正在寻找这种行为的解释,如果您有提高第二类准确性的建议。
我期待着您的帮助。
谢谢
忘了说我使用的是 R 并且在上面的测试中我使用了 1000 的节点大小。
在这里,我只用 10 棵树和 nodesize= 1 重复了训练(只是为了给出一个想法),下面是 R 中的函数调用和混淆矩阵:
- 随机森林(公式 = 标签 ~ .,数据 = chData30PixG12,ntree = 10,重要性 = TRUE,节点大小 = 1,keep.forest = FALSE,do.trace = 50)
随机森林类型:分类
树的数量:10
每次拆分尝试的变量数:22
OOB 估计错误率:24.46%
混淆矩阵:
不相关的,相关的,class.error
- 无关 37954 , 4510 , 0.1062076
- 相关 8775 , 3068 , 0.7409440