4

我尝试使用随机森林进行回归。原始数据是一个218行9列的数据框。前 8 列是分类值(可以是 A、B、C 或 D),最后一列 V9 的数值可以从 10.2 到 999.87。

当我在一个训练集上使用随机森林时,它代表原始数据的 2/3 并且是随机选择的,我得到了以下结果。

>r=randomForest(V9~.,data=trainingData,mytree=4,ntree=1000,importance=TRUE,do.trace=100)
       |      Out-of-bag   |
  Tree |      MSE  %Var(y) |
   100 | 6.927e+04    98.98 |
   200 | 6.874e+04    98.22 |
   300 | 6.822e+04    97.48 |
   400 | 6.812e+04    97.34 |
   500 | 6.839e+04    97.73 |
   600 | 6.852e+04    97.92 |
   700 | 6.826e+04    97.54 |
   800 | 6.815e+04    97.39 |
   900 | 6.803e+04    97.21 |
  1000 | 6.796e+04    97.11 |

我不知道高方差百分比是否意味着模型好。另外,由于 MSE 很高,我怀疑回归模型不是很好。关于如何阅读上述结果的任何想法?他们的意思是模型不好吗?

4

1 回答 1

10

就像@Joran 所说,%Var 是您的随机森林模型解释的 Y 的总方差量。调整后,将模型应用于您的验证数据(剩余 1/3):

RFestimated = predict(r, data=ValidationData)

检查残差也很有趣:

qqnorm((RFestimated - ValidationData$V9)/sd(RFestimated-ValidationData$V9))

qqline((RFestimated-ValidationData$V9)/sd(RFestimated-ValidationData$V9))

估计值与观察值:

plot(ValidationData$V9, RFestimated)

和 RMSE:

RMSE <- (sum((RFestimated-ValidationData$V9)^2)/length(Validation$v9))^(1/2)

我希望这有帮助!

于 2013-05-14T17:26:25.637 回答