在我对 h2o 的研究之后,我发现 h2o.randomForest 可以处理变量中的缺失值,这与 R randomForest 包不同。
见,http://h2o.ai/blog/2014/04/sjsu-tutorial-h2o-random-forest/
但是,在到处寻找之后,我似乎无法找到 h2o.randomForest 究竟是如何处理缺失值的?它与 R gbm() 包处理缺失值的相似程度如何?
任何有关上述 2 个问题的帮助将不胜感激。
谢谢,
在我对 h2o 的研究之后,我发现 h2o.randomForest 可以处理变量中的缺失值,这与 R randomForest 包不同。
见,http://h2o.ai/blog/2014/04/sjsu-tutorial-h2o-random-forest/
但是,在到处寻找之后,我似乎无法找到 h2o.randomForest 究竟是如何处理缺失值的?它与 R gbm() 包处理缺失值的相似程度如何?
任何有关上述 2 个问题的帮助将不胜感激。
谢谢,
您可以参考 H2O 文档,了解 DRF 算法如何处理各种情况下的缺失值:http: //h2o-release.s3.amazonaws.com/h2o/rel-slater/5/docs-website/h2o-docs/ index.html#Data%20Science%20Algorithms-DRF-FAQ
就 R 的 GBM 而言,他们创建了准备好处理 NA 的树。换句话说,它明确地将 NA 视为一种特殊情况。R 的 GBM 实际上将 NA 作为一种特殊情况来处理,并为它们构建树分支:左、右,NA 是每个决策的结果。
希望这可以帮助!
阿维尼