问题标签 [r-ranger]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
21 浏览

r - 在 R 中运行游侠模型时输入变异错误

我正在尝试在我的火车数据集上运行多个游侠模型,但一直收到错误消息“错误:mutate()输入有问题model。未找到 x 对象‘norm_qty’我输入modelmap(...)。”

这是我的代码

任何帮助将不胜感激,谢谢大家!:)

0 投票
1 回答
271 浏览

r - 预测格式无效。它不能被强制到一个列表 r 中的错误

ranger用来适应随机森林。作为评估指标,我使用的是 roc-auc-score,按cvAUC. 做出预测后,当我尝试评估 auc 分数时,我得到一个错误:Format of predictions is invalid. It couldn't be coerced to a list. 我认为这是由于预测包含Level显示预测的独特级别的一部分。但是,我无法摆脱那部分。下面是最小的可重现示例,它会引发错误:

0 投票
0 回答
70 浏览

r - 为什么我在通过 mlr3 使用 ranger 包时得到标准错误的缺失值?我的数据集没有缺失值

我的数据集 (be) 只是一个通用系列,我使用该系列的 2 个滞后值作为预测变量。当我通过 mlr3 运行 ranger 时,我收到一条错误消息,提示 pdata$se 中存在缺失值,不知道出了什么问题,数据集中没有缺失值。任何帮助表示赞赏。

reprex 包于 2021-05-14 创建 (v2.0.0 )

0 投票
1 回答
83 浏览

r - R ranger treeInfo 最终节点具有相同的类

当我将 ranger 用于分类模型并treeInfo()提取树时,我发现有时拆分会导致两个相同的终端节点。这是预期的行为吗?为什么在最终节点相同的情况下引入拆分是有意义的?

这个问题,我认为prediction变量可能是多数类(尽管对于 python 和另一个随机森林实现)。游侠?treeInfo文档说它应该是预测的类。

MWE

在此示例中,最后四行(nodeID 为 5 和 6,以及 7 和 8 的最终节点)具有预测TRUEFALSE。从图形上看,这看起来像这样

在此处输入图像描述

0 投票
1 回答
120 浏览

r - Missing data after step_naomit in fit_resamples

I am currently applying the following recipe and workflow in order to fit a Random Forest using 5 folds cross validation using fit_resamples. The workflow looks something like this:

When fitting the model I am prompted with the following failure message:

This looks limited to the one hot encoded columns and even with step_naomit(skip = TRUE). For this reason, I've erroneously thought that placing step_naomit after step_mutate would take care of it.

I am probably overlooking something fairly simple here, this is my first stab at {tidymodels} after a long R hyathus.

0 投票
1 回答
54 浏览

r - 使用 ranger 计算多分类混淆矩阵时出错

我正在尝试计算一个非常大的数据帧的多分类问题的混淆矩阵,该矩阵被划分并缩放为 Train_Scale 和 Test_Scale(训练集的比例用于缩放测试)集。

Ranger是用来做建模的:

变量 Class 有 5 个级别:

在测试集上进行验证,如下所示:

probabilitiesClass 是一个由 5 组成的列表,如下所示: 在此处输入图像描述

尝试通过混淆矩阵解释结果时出现以下错误:

上图中的预测是否应该是因子(因为它目前是双倍的),并且因为 Class 是具有 5 个级别的因子?

或者,尝试使用表(注意:也没有出现 NA 值)会出现以下错误:

出了什么问题以及如何使用 ranger(首选,因为插入符号仅解释 upt0 53 个级别?)和插入符号获得多类分类的混淆矩阵?

0 投票
1 回答
49 浏览

r - 使用 Ranger 计算多分类的混淆矩阵或列联表时出错

我正在调用 ranger 来对大型混合数据框架的多分类问题进行建模(其中一些分类变量的级别超过 53 个)。训练和测试运行没有任何问题。但是,解释混淆矩阵/列联表会打嗝。

我使用 iris 数据来解释我面临的困难,将 Species 视为分类变量,

遇到以下困难:

或者

然而,下面显示的二分类是有效的:

如何解决这个问题以进行多分类以获得混淆矩阵?我也将其设置为单独的线程(使用 ranger 计算多分类混淆矩阵时出错

0 投票
0 回答
16 浏览

r - 如何在 R 中获取游侠对象的摘要

我想要一个游侠对象的校验和。(随机森林)
我可以在内存中做到这一点,而不写入文件吗?

这是我的虚拟代码:

我收到以下错误:

我该如何进行这项工作?

0 投票
0 回答
61 浏览

r - R:如何使用 h2o(.ai) randomForest 的对齐设置从游侠获得相同(高质量)的结果

tl;df R::ranger 或 h2o.ai::randomForest 中的什么设置可以解释完全相同数据的非常不同的性能?

背景:
我正在尝试使用一个有些严重不平衡的数据集进行分类,并且正在考虑的优度是 Kappa(来自插入符号)。我有大约 70k 行和大约 400 列,大约 99.3% 是“0”类,而大约 0.7% 是“1”类。

这是游侠输入的片段:

这是 h2o.ai randomForest 输入的片段:

注意:我尝试将它们都设置为最大深度 12,但没有帮助。我尝试将它们都发送到最大深度 20,但并没有改变。我尝试将最大深度设置为空,但这也无济于事。

当我运行 10 个 train-predict-evaluate 循环时,我得到了 ranger 的 kappa 值:

我得到了 h2o.ai randomForest 的 kappa 值:

在我看来,h2o.randomForest 上的 kappa 的平均 kappa 比 ranger 高约 2.56 倍。

问题:那个游侠不是水在做什么?

想法:

  • h2o.ai 中可能存在动态学习率元素
  • h2o.ai 中的这个“直方图”和“箱”可能有一些东西

更新(9 月 23 日):

  • 尝试在 ecdf 域上使用 paa 来人为地压缩直方图,这大大降低了 ranger 的 kappa。结论是,去除列中的多样性会影响系统的性能。
  • 尝试强制平衡课程(一些统计数据的人说这很糟糕)并且 kappa 对他们两个都变得更好(见下文)。还将最小行数更改为 1。

这是护林员:

这是h2o.ai:

不平衡数据的平均 kappa 差异为 0.377,而平衡类的平均 kappa 差异为 0.428。仍然存在差距,但对重采样数据的训练会产生更好的测试集性能。

Ranger 有 2 种平衡类别的方法,一种是通过重采样,另一种是通过“权重”,我认为(我疯狂猜测)与计算最佳分割的位置有关。

以下是 ranger 为加权驱动的类平衡提供的内容:

以下是它为重采样驱动的类平衡提供的内容:

这是我在使用它们时得到的结果:

前两个不重叠,一个显然更好。当它们都被使用时,与仅使用重采样时相比,减少非常轻微(可能可以忽略不计),因此在没有网格搜索和微调的情况下,使用基于重采样的平衡似乎更好。

当我尝试使用“extratrees”而不是“gini”时,这是一种与 h2o 不一致但近似于列子采样的拆分规则,摘要大幅上升:

这是我目前最好的,但这仍然是猜测。

0 投票
0 回答
35 浏览

r - 预测随机森林 AUC 时出错

我正在使用 r 包 caret 和 ranger 来开发一个分类器来预测死亡风险,但是我在计算 AUC 时遇到了麻烦:

我知道在训练模型时我需要设置probability = TRUE,但是,我收到一条错误消息:

'由多个实际参数匹配的形式参数“概率”',我无法运行模型。

我的代码:

然后我在尝试运行它时收到此错误消息:

我究竟做错了什么?