7

默认情况下,增强回归树(包 gbm)的 R 实现如何处理预测变量的缺失值?它们是否被估算,如果是,根据哪种算法?

我的问题背景:大约一年前我进行了分析,我使用了 Elith 等人提供的脚本。2008 (A working guide to boosted regression trees, Journal of Animal Ecology 77, 802–813) 调用 gbm。我现在意识到我对一些预测变量有 NA,我想知道增强的回归树是如何处理它们的。浏览各种手册和论文,我发现诸如“增强回归树可以容纳缺失值”之类的陈述,但我找不到 gbm 对缺失值所做的确切描述。分析本身运行没有问题,因此 gbm 必须以一种或另一种方式处理它们。在 gbm 手册中甚至有一个示例,其中故意引入 NA 以证明 gbm 可以继续正常工作。现在我'

4

1 回答 1

3

gbm 函数可用于插补,如 Jeffrey Wongs 博客中所述: . 缺失值得到替代分割,然后用户可以得到预测集不完整的 iem 的预测。

他基于这种方法开发了一个软件包。GitHub 存储库在 gbm 文件之一的标头中有此内容:

#' GBM Imputation
#'
#' Imputation using Boosted Trees
#' Fill each column by treating it as a regression problem. For each
#' column i, use boosted regression trees to predict i using all other
#' columns except i. If the predictor variables also contain missing data,
#' the gbm function will itself use surrogate variables as substitutes for the predictors.
#' This imputation function can handle both categorical and numeric data.

为了找到这个,我只是在谷歌搜索中输入了这个:gbm 如何处理缺失值。这是我的第二次打击。

https://github.com/jeffwong/imputation/blob/master/R/gbmImpute.R

于 2013-09-06T14:55:56.913 回答