在检查我的模型的统计数据时,看起来 中的数字与 in 中的数字confusion matrix
不一致。 OOB error rate
randomForest
如何从混淆矩阵中推导出 OOB 错误率?他们之间是什么关系?
在下面的示例中,我打印了两个模型的输出,一个适合分层抽样(使用 中的样本子集sampsize
),另一个不适合(即使用默认抽样方案,我认为它使用所有样本) .
我没有公开数据,但这里是函数调用:
sumY = summary(Y)
sampsize <- c(sumY["Y0"]/10, sumY["Y1"])
# First model in the image above
strat.rf.model <- randomForest(x=X,y=Y,sampsize=sampsize, strata=Y)
# Second model in the image above
rf.model <- randomForest(x=X,y=Y)