2

我最近刚刚开始在 R 中使用随机森林包。在种植了我的森林之后,我尝试使用相同的数据集(即训练数据集)预测响应,这给了我一个与打印的不同的混淆矩阵森林对象本身。我认为 newdata 参数可能有问题,但我按照文档中给出的示例到 t 并给出了同样的问题。这是使用 Species 数据集的示例。这是作者在他们的文档中使用的相同示例,除了我使用相同的数据集来训练和预测......所以这里的问题是:为什么这两个混淆矩阵不相同?

data(iris)
set.seed(111)
ind <- sample(2, nrow(iris), replace = TRUE, prob=c(0.8, 0.2))
#grow forest
iris.rf <- randomForest(Species ~ ., data=iris[ind == 1,])
print(iris.rf)

Call:
 randomForest(formula = Species ~ ., data = iris[ind == 1, ]) 
               Type of random forest: classification
                     Number of trees: 500
No. of variables tried at each split: 2

        OOB estimate of  error rate: 3.33%
Confusion matrix:
           setosa versicolor virginica class.error
setosa         45          0         0  0.00000000
versicolor      0         39         1  0.02500000
virginica       0          3        32  0.08571429

#predict using the training again...
iris.pred <- predict(iris.rf, iris[ind == 1,])
table(observed = iris[ind==1, "Species"], predicted = iris.pred)

           predicted
observed     setosa versicolor virginica
  setosa         45          0         0
  versicolor      0         40         0
  virginica       0          0        35
4

1 回答 1

3

您会注意到,在第一个摘要中,混淆矩阵标记为OOB estimate.

这代表 Out-of-Bag,与直接预测森林训练集中的每个观察结果不同。后者显然是对准确性的有偏见的估计,而 OOB 的估计则更少(尽管 OOB 也有批评者;但至少合理)。

基本上,当您打印摘要本身时,它会获取每个观察结果,并且只在未使用它的树上进行测试,即“现成的”。因此,OOB 预测本质上只使用了森林中树木的一个子集(一般约为 2/3)。

当您直接对训练数据调用 predict 时,它使用的是树,其中每个观察结果都实际用于树构造,因此该版本使每个观察结果都正确也就不足为奇了,而 OOB 版本有一些错误分类。

于 2014-02-21T17:30:53.737 回答