2

prep()我总是在不使用、bake()或的情况下完成我的模型以进行拟合和预测juice()

rec_wflow <- 
  workflow() %>% 
  add_model(lr_mod) %>% 
  add_recipe(rec)

data_fit <- 
  rec_wflow %>% 
  fit(data = train_data)

这些 ( prep, bake, juice) 函数是否仅用于目视检查数据的预处理结果,而不是拟合/训练过程所必需的?

R 包“食谱”中的 prep/bake/juice 有什么区别?

上面的代码是我在官方教程中学到的。

我在另一个博客中读到,如果你使用train_data,会产生数据泄漏。我想听听更多关于它的信息;这些功能是否与数据泄露有关?

4

1 回答 1

4

简短回答:您是对的,当您在示例中的工作流程中使用配方时,不需要预处理功能。

这在使用 tidymodels 处理 #TidyTuesday 攀登探险数据中的类不平衡教程中有所涉及

我们将在 workflow() 中使用这个秘籍,所以我们不需要过多强调是否要 prep()。如果您想探索配方对数据的作用,您可以首先 prep() 配方以估计每个步骤所需的参数,然后 bake(new_data = NULL) 提取应用这些步骤的训练数据。

我推荐 Julia 博客中的所有教程,以了解 tidymodels。

于 2020-10-19T02:08:38.763 回答