1

在重采样期间,将测试值为 5 和 9 的 max_depth 参数。但是,在训练时,使用了一个完全不同的值 10。我预计在训练期间将设置返回最小 RMSE 的参数。在这种情况下,选择了完全不同的参数值。

library("mlr3")
library("paradox")
library("mlr3learners")
library("mlr3tuning")
library("data.table")

set.seed(10)

x1 = 1:100
x2 = 2 * x1
y = x1^2 - x2 + rnorm(100)

data = data.table(
   x1 = x1,
   x2 = x2,
   y = y
)

task = TaskRegr$new("task", backend = data, target = "y")

lrn_xgb = mlr_learners$get("regr.xgboost")

ps = ParamSet$new(
   params = list(
      ParamInt$new(id = "max_depth", lower = 4, upper = 10)
   ))

at = AutoTuner$new(learner = lrn_xgb, 
                   resampling = rsmp("cv", folds = 2),
                   measures = msr("regr.rmse"), 
                   tune_ps = ps,
                   terminator = term("evals", n_evals = 1),
                   tuner = tnr("random_search"))

resampling_outer = rsmp("cv", folds = 2)

rr = resample(task = task, learner = at, resampling = resampling_outer)
#> max_depth = 5
#> max_depth = 9

at$train(task)
#> max_depth = 10

会话信息:

R version 3.6.1 (2019-07-05)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 8.1 x64 (build 9600)

Matrix products: default

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods  
[7] base     

other attached packages:
[1] mlr3learners_0.1.3 mlr3tuning_0.1.0   data.table_1.12.2 
[4] paradox_0.1.0      mlr3_0.1.3

loaded via a namespace (and not attached):
 [1] lgr_0.3.3        lattice_0.20-38  mlr3misc_0.1.4  
 [4] digest_0.6.21    crayon_1.3.4     grid_3.6.1      
 [7] R6_2.4.0         backports_1.1.4  magrittr_1.5    
[10] stringi_1.4.3    uuid_0.1-2       Matrix_1.2-17   
[13] checkmate_1.9.4  xgboost_0.90.0.2 tools_3.6.1     
[16] compiler_3.6.1   Metrics_0.1.4
4

1 回答 1

3

发生的一切都是正确的。关键是:AutoTuner 在 xgboost 的训练算法之前添加了一种调优方法,该方法找到(最优?好?表现良好?)超参数,然后将它们设置在学习器中,然后通过训练的最终调用来训练模型算法。

您可以将其设想为

数据 -> [Split-Data] -> [Tune] -(opt.HPs, Data) -> [Train] -> 模型

如果你想要一张(只是稍微)不那么难看的照片,看看我的讲座:

https://compstat-lmu.github.io/lecture_i2ml/articles/content.html (见第5天,调优和嵌套重采样)

现在,在您的代码中,上述管道的 3 遍以上发生了。2 在你的 2-fold CV 中,1 在最后。在每次传递中,都会发生一个调整调用。在不同的数据上。因此,无法保证 3 个最佳 HP 配置相同。首先,前 2 个是来自样本基础数据分布的数据样本,并且大小相同。所以很多都是“相同的”,但它们仍然是随机样本。所以结果可能不同。尤其是当有许多 HP 配置与最佳 HP 配置具有几乎相同的性能时。而且数据很小。调谐器非常随机。(注意:对于您的示例,所有这些都是正确的......)对于第三次调整运行,基础数据分布仍然相同,但现在训练数据甚至更大(在您的情况下,大小翻倍,由于2CV)。这也可能导致不同的结果。

一般来说,你可以检查你至少大致相似的调整结果,就像你在上面所做的那样,然后开始“担心”/检查/使用你的人类学习工具(大脑)为什么调整实际上是“不稳定的”。但是在你的情况下,数据太少了,实验更像是一个“玩具实验”,我认为在这里思考这个问题没有意义。为什么它在技术上不是我上面解释的错误。

这是另一个很有帮助的类比:忘记 AutoTuner,使用简单的线性回归运行完全相同的代码。您使用它运行 2CV,然后将其拟合到完整数据上。为线性模型创建了 3 个“beta”参数向量。你希望他们都一样吗?不,如果他们都超级不同,你会担心吗?潜在的。

我的最后一个示例和您的代码非常相关。我的最后一个例子我称之为“一级学习”。我们在数值上优化了线性模型的风险函数。调优是“二级学习”。它仍然优化参数、超参数或二级参数。它优化了一个不同的“风险”:交叉验证错误。并使用其他优化技术,也许是随机搜索,也许是贝叶斯优化。但在抽象层面上,这两种技术非常相似。

作为一名学生,这种比较对我帮助很大,这也是为什么 mlr 在某种程度上看起来像 AutoTuner 的原因。

于 2019-10-10T21:16:39.640 回答