问题标签 [r-recipes]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
425 浏览

r - 关于 R 中的食谱包

嗨,我正在使用机器学习模型中的特征工程配方。但是,当我使用 step_dummy 时,虚拟变量被视为数值变量,而不是因子。我认为当我们使用随机森林或其他树模型时,这可能会出现问题。我们怎样才能改变这一点?PDP 显示虚拟预测器被视为数字。所以 X 轴有 0.25, 0.5....... 这应该只有 0 和 1(因为 dummy)。

在此处输入图像描述

0 投票
1 回答
127 浏览

r - Tidymodels imputation within each fold

When using caret with CV, imputation estimation /etc will happen in each fold as not to leak. I am trying to find whether this happens in the tidymodels workflow.

Logically I don't think so as you pipe a baked (already applied steps) into the vfold_cv... but I may br wrong.

I could build a workflow that creates folds first, but wondering if im missing something. Thanks

0 投票
1 回答
101 浏览

r - 如何修复此错误:Recipes 无法在 Caret:: Train 中加载?

将食谱加载到插入符号时我遇到了这个问题:: train

NA 估算有问题,但我不知道如何解决。如果我删除交叉验证一切正常。

提前致谢,

错误信息

quantile.default(y, probs = seq(0, 1, length = cut)) 中的错误:如果 'na.rm' 为 FALSE,则不允许缺少值和 NaN

R.version _
platform x86_64-apple-darwin15.6.0
arch x86_64
os darwin15.6.0
system x86_64, darwin15.6.0
status
major 3
minor 6.1
year 2019
month 07
day 05
svn rev 76782
language R
version.string R version 3.6.1 (2019 -07-05) 昵称 脚趾动作

0 投票
0 回答
71 浏览

r - 带有插入符号的 gbm 的配方 vs 公式 vs X/Y 界面再现性

我已经在 iris 数据集上训练了相同的模型来研究每种方法的可重复性。当使用 all.equal() 用于使用 recipes 接口训练的模型时,模型之间似乎存在差异,但不是使用公式或 x/y 接口。这个问题似乎是 gbm 特有的(同样的结构适用于 Model = rf 或 lm)。

食谱公式是否有特定于gbm的东西。还是我的电脑设置的。好奇看看其他人是否可以重现错误。

会话信息:

会话信息()

0 投票
1 回答
196 浏览

r - step_num2factor() 用法——Tidymodel(配方包)

好吧,老实说,我已经阅读了 step_num2factor 的函数参考,并没有弄清楚如何正确使用它。

使用 step 后数据输出temp_data$MSSubClass全是 NA。obs 保存为 20,30,40.... 190,我想转换为名称(甚至是相同的数字,但作为无序因子)

如果你知道更多关于 step_num2factor 使用的博客文章或一些使用的代码,我也很乐意看到。

完整的数据集由 kaggle 提供: kaggle data

提前谢谢,

0 投票
1 回答
205 浏览

r - 无法使用 tidymodels 包使用分类预测器训练 Poisson glmnet

我的目标是使用该tidymodels软件包安装 Poisson glmnet。为此,我使用recipes包来预处理数据、parsnip拟合模型、workflows将模型与预处理器捆绑在一起,并poissonreg能够将泊松回归与parsnip. 如果我的训练数据集只包含数字预测变量,它工作得非常好,但是当有一些因子(或分类)预测变量时,我无法拟合模型。在下面的代码中,您可能会认为 usingtidymodels是矫枉过正。是的,这是针对这个最小的示例,但最终,我会想要调整我的超参数,验证我的模型等,然后,tidymodels这将是有用的。

首先,让我们加载我们需要的包。

让我们还模拟我们的数据集,该数据集有 1000 行、1 个结果 ( y)、1 个具有 2 个级别 ( x_fac) 的分类预测变量和 3 个数字预测变量 (x_num_01x_num_02) x_num_03

然后,我们定义并准备配方。预处理非常简单:如果有的话,所有的分类预测器都被转换为虚拟预测器。

然后我们定义我们的模型,

将模型和预处理器与workflows包捆绑在一起

最后,我们训练模型parsnip

parsnip::fit函数抛出错误

我完全不知道为什么!如果您x_fac从模拟数据集中删除预测器dat,它工作正常。如果我在使用包运行 glmnet 之前自己预处理数据,它也可以工作glmnet

谢谢你的帮助!

会话信息:

0 投票
1 回答
204 浏览

r - 如何在 r 中使用 tidy-model 对数据进行反规范化

使用tidymodels作为在 R 中开发模型的新工作流程,我如何使用tidymodels 去规范化/反转幂变换数据。

dd <- data.frame(x1=1:5,x2 = 11:15,y=6:10).

现在使用整洁的模型框架:

问题是我在 tidymodel 工作流程中找不到任何非规范化工具

0 投票
1 回答
538 浏览

r - tidymodels 配方:使用 all_of 选择存储在向量中的变量

我想为tidymodels配方包中的各种步骤函数使用带有列名的向量。我的直觉是简单地使用(prep这里juice仅用于说明):

但这会返回警告:

当然,这让我很担心(我想确保我在编码时不会遇到错误消息),但我仍然得到了我想要的结果。

但是,当我按照错误消息并使用以下内容时all_of

我收到错误消息:

错误:并非所有函数都允许在阶跃函数选择器中使用(例如all_of)。见?选择。

在 中?selections,我似乎没有找到对我所拥有的确切(看似简单)问题的参考。

有任何想法吗?非常感谢!

0 投票
1 回答
2462 浏览

r - R 包“食谱”中的 prep/bake/juice 有什么区别?

我阅读了 tidymodels 的介绍,我对食谱包对数据的作用prep(), bake()和作用感到困惑。juice()各自做什么?老实说,我发现为函数命名这样的名称令人困惑,在烹饪类比中,每个函数的名称会更直观吗?

0 投票
0 回答
103 浏览

r - Tidymodels 错误拟合。错误:`x` 和 `y` 必须具有相同的类型和长度

我有以下代码:

我也尝试过使用工作流程

使用时last_fit()出现以下错误:

我使用了 kknn、decision_tree、random_forest 和 xgboost,都得到了相同的错误。即使使用tune_grid().

问题是当我使用fit()函数时一切正常。我知道这是因为我使用了错误的模型,但是为什么会出现该错误?我是 tidymodel 包的新手。

提前致谢。