我尝试使用随机森林进行回归。原始数据是一个218行9列的数据框。前 8 列是分类值(可以是 A、B、C 或 D),最后一列 V9 的数值可以从 10.2 到 999.87。
当我在一个训练集上使用随机森林时,它代表原始数据的 2/3 并且是随机选择的,我得到了以下结果。
>r=randomForest(V9~.,data=trainingData,mytree=4,ntree=1000,importance=TRUE,do.trace=100)
| Out-of-bag |
Tree | MSE %Var(y) |
100 | 6.927e+04 98.98 |
200 | 6.874e+04 98.22 |
300 | 6.822e+04 97.48 |
400 | 6.812e+04 97.34 |
500 | 6.839e+04 97.73 |
600 | 6.852e+04 97.92 |
700 | 6.826e+04 97.54 |
800 | 6.815e+04 97.39 |
900 | 6.803e+04 97.21 |
1000 | 6.796e+04 97.11 |
我不知道高方差百分比是否意味着模型好。另外,由于 MSE 很高,我怀疑回归模型不是很好。关于如何阅读上述结果的任何想法?他们的意思是模型不好吗?