machine-learning - 在使用 mlr3pipeline 编码和缩放数据后，无法通过 mlr3proba 训练数据集

Question

当我在使用 mlr3pipeline 编码和缩放我的数据集后运行以下代码以在 mlr3proba 中训练模型时：

task =tsk("sonar")
learner = lrn("classif.rpart")
measure = msr("classif.ce")
inner.rsmp <- rsm("cv", folds = 5)
train_set = sample(task$nrow, 0.8 * task$nrow)
test_set = setdiff(seq_len(task$nrow), train_set)

learner <- po("encode") %>>% po("scale") %>>% po("learner", learner)
learner$train(task, row_ids = train_set)

R代码显示错误如下：

Error in learner$train(task, row_ids = train_set) : 
  unused argument (row_ids = train_set)

我在另一个数据集中尝试了这个，但它显示了同样的问题。

但如果我不对数据集进行编码和缩放，一切正常。

此外，对于resample()功能，它是可以的（尽管编码和缩放）：

rr <- resample(task, learner, inner.rsmp)
rr$aggregate(measure)

#Results:

INFO  [08:46:55.411] [mlr3]  Applying learner 'encode.scale.classif.rpart' on task 'sonar' (iter 4/5) 
INFO  [08:46:55.539] [mlr3]  Applying learner 'encode.scale.classif.rpart' on task 'sonar' (iter 1/5) 
INFO  [08:46:55.644] [mlr3]  Applying learner 'encode.scale.classif.rpart' on task 'sonar' (iter 2/5) 
INFO  [08:46:55.773] [mlr3]  Applying learner 'encode.scale.classif.rpart' on task 'sonar' (iter 5/5) 
INFO  [08:46:55.876] [mlr3]  Applying learner 'encode.scale.classif.rpart' on task 'sonar' (iter 3/5)

rr$score(measure)

                task task_id            learner                 learner_id         resampling
1: <TaskClassif[46]>   sonar <GraphLearner[33]> encode.scale.classif.rpart <ResamplingCV[19]>
2: <TaskClassif[46]>   sonar <GraphLearner[33]> encode.scale.classif.rpart <ResamplingCV[19]>
3: <TaskClassif[46]>   sonar <GraphLearner[33]> encode.scale.classif.rpart <ResamplingCV[19]>
4: <TaskClassif[46]>   sonar <GraphLearner[33]> encode.scale.classif.rpart <ResamplingCV[19]>
5: <TaskClassif[46]>   sonar <GraphLearner[33]> encode.scale.classif.rpart <ResamplingCV[19]>
   resampling_id iteration              prediction classif.ce
1:            cv         1 <PredictionClassif[19]>  0.3333333
2:            cv         2 <PredictionClassif[19]>  0.2142857
3:            cv         3 <PredictionClassif[19]>  0.2380952
4:            cv         4 <PredictionClassif[19]>  0.3658537
5:            cv         5 <PredictionClassif[19]>  0.2439024

那么问题出在哪里？

score 2 · Accepted Answer

您需要将学习器包装在 GraphLearner PipeOp 中：

library(mlr3)
library(mlr3pipelines)

task =tsk("sonar")
learner = lrn("classif.rpart")
measure = msr("classif.ce")
inner.rsmp <- rsmp("cv", folds = 5)
train_set = sample(task$nrow, 0.8 * task$nrow)
test_set = setdiff(seq_len(task$nrow), train_set)

learner <- po("encode") %>>% po("scale") %>>% po("learner", learner)
learner <- GraphLearner$new(learner)
learner$train(task, row_ids = train_set)
learner$predict(task, row_ids = test_set)
#> <PredictionClassif> for 42 observations:
#>     row_ids truth response
#>           5     R        R
#>          12     R        R
#>          13     R        R
#> ---                       
#>         188     M        M
#>         191     M        M
#>         201     M        M

^{由reprex 包于 2021-04-30 创建(v0.3.0)}

machine-learning - 在使用 mlr3pipeline 编码和缩放数据后，无法通过 mlr3proba 训练数据集

1 回答 1

Related

Reference