我正在使用 h2o 包来创建 randomForest 回归模型。我对变量的重要性有一些问题。我正在创建的模型在这里。一切正常。
有些变量是数字的,但有些是分类的。
RandomForest <- h2o.randomForest(x = c("Year", "Month", "Day", "Time", "Show", "Gen",
"D", "Lead"), y = "Ratio", data = data.hex, importance=T, stat.type = "GINI",
ntree = 50, depth = 50, nodesize = 5, oobee = T, classification = FALSE, type = "BigData")
但是,当我想查看变量重要性时,输出看起来像这样。
Classification: FALSE
Number of trees: 50
Tree statistics:
Min. Max. Mean.
Depth 30 40 33.26
Leaves 20627 21450 21130.24
Variable importance:
Year Month Day Time Show Gen D Lead
Relative importance 20536.64 77821.76 26742.55 67476.75 283447.3 60651.24 87440.38 3658.625
Standard Deviation NA NA NA NA NA NA NA NA
Z-Scores NA NA NA NA NA NA NA NA
Overall Mean-squared Error:
我想知道的是:1)为什么会有 NA 值。2) 相对重要性实际上是什么意思。不应该在1到100之间吗?3)为什么输出中没有混淆矩阵?
谢谢您的帮助!