我正在处理一个大型数据集,因此希望删除无关变量并调整每个分支的最佳 m 变量。在 R 中,有两种方法,rfcv 和 tuneRF,可以帮助完成这两个任务。我正在尝试将它们组合起来以优化参数。
rfcv 的工作原理大致如下:
create random forest and extract each variable's importance;
while (nvar > 1) {
remove the k (or k%) least important variables;
run random forest with remaining variables, reporting cverror and predictions
}
目前,我已将 rfcv 重新编码为如下工作:
create random forest and extract each variable's importance;
while (nvar > 1) {
remove the k (or k%) least important variables;
tune for the best m for reduced variable set;
run random forest with remaining variables, reporting cverror and predictions;
}
当然,这会将运行时间增加一个数量级。我的问题是这是多么必要(使用玩具数据集很难得到一个想法),以及是否可以预期任何其他方式在更短的时间内大致同样有效。