问题标签 [yardstick]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tidymodels - 如何在 TidyModel 中为 fit_resample 的 F1 分数添加 beta 参数
我正在使用 TidyModels 中的 fit_resamples() 函数来获取 F1 指标,如下所示。我想知道如何传递默认设置为1的beta参数。
非常感谢!
扎尼
r - yardstick::roc_cruve 的类概率列
我对调用 roc_curve 时要传递的列有疑问。如果您查看https://www.tidymodels.org/start/recipes/#predict-workflow提供的示例,您可以看到提供的参数是 .pred_late。
为什么使用它而不是 .pred_on_time?
对我来说价值.pred_on_time > 0.5
==> on_time
。我知道关系.pred_on_time+.pred_late=1
,但写起来更自然:
r - 从 Tidymodels 中的拟合工作流中获取训练数据的 AUC?
我正在努力解决如何使用 tidymodels 从逻辑回归模型中获取 AUC。
这是使用内置mpg
数据集的示例。
最后一行返回此错误:
r - rmse 中的错误(。,真值 = 变量,估计 = .pred):R Tidymodels(标准)中未使用的参数(真值 = ,估计 = .pred)
我正在使用本Tidymodels
教程拟合回归树模型。
防风草模型对象
拟合时间:2.5s n= 56868
node), split, n, deviance, yval * 表示终端节点
- 根 56868 32009190000 455.2222
- 贷方计数< 728.5 56859 13948640000 448.2417
- 贷方计数< 81.5 56613 6692397000 428.2886
- 贷方计数< 20.5 47772 2345794000 342.4569
- 贷方计数< 12.5 35164 1238679000 282.1622 *
- 贷方计数>=12.5 12608 622737900 510.6202 *
- 贷方计数>=20.5 8841 2092969000 892.0767
- 贷方计数< 38.5 7455 740153600 787.4748 *
- 贷方数> = 38.5 1386 832502400 1454.7080 *
- 贷方数> = 81.5 246 2046660000 5040.1420
- 贷方计数< 229 224 938017600 4421.3170 *
- 贷方数>=229 22 149470700 11340.9100 *
- 贷方数>=728.5 9 554222200 44555.5600 *
但是当我使用测试数据时,我收到了一个奇怪的错误。
我dput()
的火车数据示例:
dput()
用于测试数据。
r - 有没有办法在 tidymodels 中创建与 tune_grid() 一起使用的自定义指标,允许分组的 data.frame/tibble?
我想做的事
我正在尝试建立一个模型tidymodels
来预测药物对细胞系(如细菌)的功效。该模型将根据给定细胞系的功效对药物进行排名,因此我想使用 Spearman 相关性 (ρ) 作为指标。在下面的示例数据集中,每个细胞系(列Sample
)由一个字母 表示,Q, R, S, ..., Z
每个样本用 50 种药物处理。
当我拆分数据进行交叉验证时,每个折叠的训练/测试拆分将具有 >1 个细胞系(例如Q, R
,在折叠 1 的测试拆分中),但在计算度量(ρ)时,我想计算它每个细胞系单独,然后对测试拆分中的所有细胞系取平均值,而不是对所有观察结果进行聚合。例如,如果折叠 1 的测试拆分由 组成Q, R
,那么我想计算 50 种测试药物的 ρ,然后计算 50 种药物测试Q
的单独 ρ R
,平均这两个 ρ,并将该平均值作为计算的度量折叠 1。
我试过的
我在想我必须计算按Sample
列分组的 tibble/data.frame 上的指标,但我不知道如何将该变量传递到tune_grid()
. 我不认为我可以在add_formula()
创建工作流对象时包含该变量,因为我不希望它作为预测变量。我昨天刚刚发现了 tidymodels,所以也许有一个我不知道的简单解决方案,但到目前为止我还没有在谷歌上找到任何东西。下面的代码是我尝试过的,但显然它不起作用。提前感谢您提供的任何建议。
错误
运行时glmnet_tuning_results
:
代码
示例数据集
模型
自定义指标
会话信息
r - 在 Tidymodels 中使用分类成本和自定义成本矩阵进行调整
我正在使用 tidymodels 来构建一个模型,其中假阴性比假阳性更昂贵。因此,我想使用该yardstick::classification_cost
指标进行超参数调整,但使用反映这一事实的自定义分类成本矩阵。
在拟合模型后执行此操作非常简单:
由reprex 包于 2021-11-01 创建(v2.0.1)
但是在超参数调整期间使用这个函数是我遇到问题的地方。文档指出,对于设置选项,指标应该包含在自定义函数中。这是我的尝试和由此产生的错误。请注意此包装器如何在评估拟合模型时正常工作,但在尝试用于调整时会引发错误:
由reprex 包于 2021-11-01 创建(v2.0.1)
取消嵌套注释显示有未使用的参数:"internal: Error: In metric:
classification_cost_penalized\nunused arguments (estimator = ~prob_estimator, event_level = ~event_level)"
但显然该yardstick_event_level()
函数,event_level
根据本文档应该如何设置,不存在?搜索时没有显示该名称下的功能。
我不知道如何在这里进行。感谢您的时间。
r - 能够使用用于多类分类的多个变量在标准中构建自定义指标 - tidymodels
我正在从插入符号转移到 tidymodels 环境,并且在转移自定义指标时遇到问题。我能找到的所有可用文档都提供了使用“truth”和“estimate”变量构建自定义指标的示例。准确性和 roc_auc(使用真值和估计)不合适,因为问题涉及投注和赔率,因此成功在不同事件中无法比较,因为赔率使一个成功比另一个更有利,我想对此进行优化。
我已经向 RStudio 社区发布了一些代码(下面的链接),但还没有成功,但我想我的问题是;有谁知道这在目前的尺度上是否可行?
可能我只需要回到插入符号。
谢谢克里斯