0

我目前正在做一个使用随机森林的项目。我想知道所有协变量的特征重要性并想MeanDecreaseGini用于此。

我真的不明白为什么会有大于 0.5 的值。基尼指数不能大于 0.5,所以下降也不应该是这样。当您对森林中使用特定协变量的节点中的所有值进行平均时,Gini 的平均减少量不能大于 0.5。谁能说,我的思维错误在哪里?

这是一个结果MeanDecreaseGini远大于 0.5 的代码示例:

install.packages("randomForest")
library(randomForest)

set.seed(1)
a <- as.factor(c(rep(1, 20), rep(0, 30)))
b <- c(rnorm(20, 5, 2), rnorm(30, 4, 1))
c <- c(rnorm(25, 0, 1), rnorm(25, 1, 2))
data <- data.frame(a = a, b = b, c = c)

rf <- randomForest(data = data, a ~ b + c, importance = T, ntree = 300)
importance(rf)
4

0 回答 0