问题标签 [broom]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
280 浏览

r - R中列表上的augment和ggplot问题

我的数据集是:

我想在 x6 和 x7 上做一个样条曲线,但在我对 x1、x2、x3、x4、x5 进行分组之前,我会:

现在我想使用 broom::augment,但 spline 是一个列表。另一个问题是我想做一个情节(用ggplot2):

但给我一个错误:“错误:ggplot2 不知道如何处理类列表的数据”,因为 ggplot 想要一个数据框而不是列表。有没有适合作为数据框或在列表中使用扩充的方法?如果我可以使用增强,我可以这样做:

所以我已经 .fitted 了一个数据框,我可以使用 ggplot。

0 投票
1 回答
870 浏览

r - 使用 dplyr 和 broom 在训练和测试集上计算 kmeans

我正在使用 dplyr 和 broom 为我的数据计算 kmeans。我的数据包含 X 和 Y 坐标的测试和训练集,并按某个参数值(在本例中为 lambda)分组:

我有head上面的测试数据集,但我也有一个mds.train包含我的训练数据坐标的名称。我的最终目标是对按 lambda 分组的两个集合运行 k-means,然后为训练中心上的测试数据计算 inside.ss、between.ss 和 total.ss。多亏了有关 broom 的大量资源,我只需执行以下操作即可为测试集的每个 lambda 运行 kmeans:

然后我可以为每个 lambda 中的每个集群计算这些数据的中心:

这就是我卡住的地方。我如何计算参考页面上类似显示的功能分配(例如kclusts %>% group_by(k) %>% do(augment(.$kclust[[1]], points.matrix))),其中 my points.matrixismds.test是一个 data.frame ,length(unique(mds.test$lambda))其行数应为应有的倍数?有没有办法以某种方式使用训练集中的中心来计算glance()基于测试任务的统计数据?

任何帮助将不胜感激!谢谢!

编辑:更新进度。我已经弄清楚如何汇总测试/培训作业,但在尝试从两组计算 kmeans 统计数据时仍然遇到问题(测试中心的培训作业和培训中心的测试作业)。更新的代码如下:

我在下面附上了一个图表,说明了我在这一点上的进展。重申一下,我想计算训练数据中心在测试任务/坐标(中心看不到的图)上的 kmeans 统计量(在平方和内、总平方和之间以及在平方和之间): 在此处输入图像描述

0 投票
0 回答
134 浏览

r - 使用 R 包 broom 会导致 ifelse 出错

我使用 R 包broom将我的结果作为 data.frame 从lm(). 这很好用,但会导致我的ifelse命令出现问题。在安装扫帚包之前运行良好的脚本如下:

现在它给出以下错误:

ifelse((df$oldvariable == 1), 1, df$newvariable) 中的错误:
替换长度为零此外:警告消息:1:未知列 'newvariable' 2:在 rep(no,length.out = length( ans)) : 'x' 为 NULL,因此结果将为 NULL

如果我不安装broom软件包,我仍然可以避免这种情况。未对可能导致此问题的原始 data.frame 进行任何更改。

为什么broom包会导致ifelse命令失败?

0 投票
2 回答
1762 浏览

r - R - 整齐的增广置信区间

我想知道如何使用broom包计算置信区间。

我想做的是简单而标准的:

使用我可以非常简单地visreg绘制回归模型:CI

在此处输入图像描述

我对使用broomand重现这个很感兴趣ggplot2,到目前为止我只实现了这个:

在此处输入图像描述

augment函数不计算conf.int。任何线索我可以添加一些smooth信心倒数?

0 投票
2 回答
2953 浏览

r - 使用扫帚包整理地图时保留区域名称

我正在使用 raster 包中的 getData 函数来检索阿根廷的地图。我想使用 ggplot2 绘制生成的地图,所以我使用 broom 包中的 tidy 函数转换为数据框。这很好用,但我不知道如何保留联邦区的名称,以便我可以在地图上使用它们。

这是我不保留地区名称的原始代码:

下面是从 SPDF 中提取地区名称并将其用作地图 ID 的 hack 代码:

我一直在想,必须有某种方法可以使用保留名称的 tidy 功能,但对于我的生活,我无法弄清楚。

0 投票
1 回答
974 浏览

r - R - ggplot geom_smooth facet_grid CI 未显示

我很难理解为什么我的数据没有显示置信区间。当我在另一个数据集上重现我的代码时,代码似乎工作正常。例如,在mtcars

代码是

生成绘图

我得到了置信区间。

但是,这不适用于我的数据。有人可以帮我弄清楚这里出了什么问题吗?我会很感激。

OLS

情节,(这是一个少数情况的例子,但结果与整个数据集相同)

CI没有显示。

在此处输入图像描述

任何线索我在这里做错了什么?

奇怪的是,当我不使用facet_grid这里时,CI工作完美

在此处输入图像描述

我的数据样本

0 投票
1 回答
463 浏览

r - nnet::multinom 模型的数据框出现 Broom::tidy 错误

我正在使用 生成多项模型nnet,其中一个模型适合数据集中的每个城市。当我尝试使用tidy这些模型时,我收到以下错误:

但是,如果我为每个城市分别制作一个模型,然后使用,tidy我不会收到任何模型的错误。我也可以毫无错误地使用glace

什么可能导致此错误?

0 投票
4 回答
1613 浏览

r - 使用每个预测变量列的拟合模型将结果单独存储在数据框中

我有一个数据框,其中包含一列响应变量和几列预测变量。我想分别使用每个预测变量来拟合响应变量的模型,最后创建一个包含模型系数的数据框。以前,我会这样做:

dplyr但是,现在我已经开始使用,broom等,这似乎有点麻烦。使用purrr::map我可以或多或少地重新创建这个模型列表:

但是,我不确定如何将此列表转换为与broom::tidy. 如果我使用分组行而不是列,我将存储模型拟合并broom::tidy用于执行以下操作:

当然这不是我正在做的,但我希望在使用数据列时有类似的过程。有没有办法,也许可以使用purrr::nest或类似的东西来创建所需的输出?

0 投票
1 回答
351 浏览

r - 小标题中的列表列:我可以将一个列表列与另一个列表列链接吗?

这是我的第一篇文章,所以如果我听起来很傻或者我正在寻找的答案已经存在,请原谅我。

我的主要问题是:我创建了一个包含 4 列(一个字符列、两个数据列和一个包含字符列每个级别的距离矩阵的列)的小标题,我正在尝试创建一个使用第四列的距离矩阵作为因变量,第二列的一些自变量。问题是 R 一直警告我它找不到因变量。

我使用的包如下:

包含我的 IV 的小标题如下所示:

然后我嵌套它:

这是它的外观:

随后,我创建了另一个包含原始存在/不存在数据的小标题:

然后我也嵌套了那个小标题:

它看起来像:

我重命名数据列,以便将它与包含 IV 的小标题连接起来:

作为下一步,我构造了一个函数来计算矩阵:

rr 小标题现在看起来像这样:

然后,我加入了两个 tibbles:

小标题看起来像这样:

我要应用的功能如下所示:

当我尝试使用以下代码计算它时:

my_tibble <- my_tibble %>% mutate(mrm = map(IVs,mrm_model)),

我收到此错误消息:

Error in mutate_impl(.data, dots) : object 'Dist.matrix' not found.

你知道为什么这会不断弹出吗?

当我尝试使用 $ 符号“更正”函数时:

mrm_model <- function(df){ecodist::MRM(my_tibble$Dist.matrix~dist(Area),data = (df))},

我收到以下警告:

Error in mutate_impl(.data, dots) : invalid type (list) for variable 'my_tibble$Dist.matrix'.

在这种类型的数据操作方面,我绝对是新手,所以显然我已经过头了,我将非常感谢我能得到的所有帮助。

0 投票
1 回答
1730 浏览

r - 在 group_by 之后使用 dplyr 拟合几个回归模型并将结果模型应用到测试集中

我有一个大数据集,我想根据特定变量的值(在我的情况下为生命周期)进行分区,然后在每个分区上运行逻辑回归。在使用 dplyr拟合几个回归模型中@tchakravarty 的回答之后,我编写了以下代码:

我现在的问题是如何使用生成的逻辑模型来计算其余数据(未选择的 0.3 部分)的 AUC,这些数据应该再次按生命周期分组?

提前非常感谢!