问题标签 [tidyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
74 浏览

r - 在 R 中重塑这个数据框的最简单方法是什么?

假设我有以下宽/混乱的数据框:

我怎样才能把它变成这个数据框:

我知道有多个包和函数(例如,tidyr、reshape2、reshape 函数)可以实现这一点。哪种方法最简单,怎么做?非常感谢任何人可以提供的任何帮助。谢谢!

0 投票
2 回答
3531 浏览

r - Dplyr summarise_each 汇总结果

我有一个这样的数据框:

我展示了 2 个字段,但还有更多字段。我需要对按每个字段分组的指标求和,例如 field1:

我可以对每个字段执行此操作,其中列是 sum(metric1)、sum(metric2)、sum(metric3),但我需要的表输出是这样的:

我相信必须有一种方法可以使用 tidyr 和 dplyr 但无法弄清楚

0 投票
4 回答
13616 浏览

r - 如何将多个变量的重复测量值传播为宽格式?

我正在尝试采用长格式的列并将它们传播为宽格式,如下所示。我想使用 tidyr 通过我正在投资的数据处理工具来解决这个问题,但是为了使这个答案更通用,请提供其他解决方案。

这是我所拥有的:

所需的宽格式:

我可以通过为每个分数做这样的事情来做到这一点:

然后使用_join,但这似乎很冗长,并且必须有更好的方法。

相关问题:
tidyr 从宽到长,有两个重复的措施
是否可以在 tidyr 的多个列上使用类似于 dcast 的传播?

0 投票
2 回答
143 浏览

r - 当有多个重复的列集时删除表中的重复列

当只有两个重复块时,我看到了如何处理删除重复列的情况,但在我的真实数据中,我有 3 个或更多。我试图想出一些玩具示例数据集,其中有一组额外重复的列名,我想折叠它们。dplyr有没有一种类似的直接方法可以用and解开这些混乱tidyr

更简单的情况:

这看起来像在 R 中:

它应该如何照顾dplyr

更难的情况:

这看起来像在 R 中:

之后应该是什么样子dplyr

在这两种情况下,输出数据框都应该有两列,第一列和第二列。

谢谢你的帮助!

0 投票
1 回答
264 浏览

r - 通过 dplyr 与 R 中的聚合计算中位数

您好:当我通过 dplyr/tidyr 与聚合生成数据集时,我得到的数据集的中位数看起来与下面创建的数据集略有不同。谁能解释其中的区别?谢谢!

0 投票
1 回答
89 浏览

r - 合并两列,但更改特定变量的名称

我有两个包含许多缺失数据的因子列。在数据收集过程中更改了特定变量的名称。我想要做的是将两列合并在一起,但更改特定旧变量的名称以匹配新变量。

我用了

创造

我希望

因此,出于本示例的目的,将变量合并为 并将变量newvar的名称更改redlightred. 我有许多变量要更改,但如果我能让它与一个变量一起工作,我想我将能够解决其余的问题。

更新:感谢@Veerendra Gadekar,这里接近解决方案......

我使用了下面的代码

help$newvar= gsub('red', 'lightred', help$var1)

但变量lightred没有转移到newvar......输出如下

想法?

0 投票
1 回答
2185 浏览

r - R:使用“传播”功能进行旋转

继续我之前的帖子,我现在还有 1 列 ID 值,我需要使用这些值将行转为列。

我想要的输出是

spread在 R 中使用函数,但收到错误提示重复标识符。这是因为我现在有 2 列(ID 和 NUM),而不是之前的 1 列(NUM)。请让我知道我该怎么做。

0 投票
1 回答
548 浏览

r - dplyr 重铸 - 未找到变量

首先,这是tbl_df我正在使用的数据(简化):

我想(以整洁的措辞)将 year 变量分布在var1和上var2。经过一些(...)迭代后,我发现了一种有效的语法:

三个问题:

1)如果我不指定measure.var =,我会收到以下错误:

这是为什么?从recast's man,我认为它会measure.var作为所有其他变量?

2)那么,有没有办法避免指定measure.var?在我的真实案例中,有太多变量名称太长,无法显式指定它们。

3)有没有更好/更简单的方法来使用reshape2或者tidyr我错过了?

0 投票
1 回答
229 浏览

r - 重塑与 tidyr 用于具有多个因变量的重复测量

我有以下 10 个案例的样本数据,对两个因变量“Rapport”和“STRS”进行了三个重复测量:

我尝试在 reshape 中使用“melt”函数,在 tidyr 中使用“gather”函数,但两者都生成一列,其中变量名称为“Rapport”和“STRS”堆叠,另一列包含它们的值。我无法弄清楚如何为“Rapport”值生成单列,为“STRS”值生成另一列,以便我可以使用随机效应模型(注意:我省略了其他人口统计变量和协变量)。对于这两个功能的任何帮助将不胜感激。

我终于能够使用这个“重塑”功能获得长格式,这看起来很简单,但我不确定这样做时是否需要注意什么:

0 投票
2 回答
708 浏览

r - 重塑与 tidyr 以进行具有多个因变量的重复测量 (2)

我有以下 5 个案例的样本数据,对两个因变量“Rapport”和“STRS”进行了三个重复测量:

要将数据集从宽格式转换为长格式,我运行了以下代码:

结果是我想要的,但我不希望在第 8 列中添加额外的“id”列,因为它只是第 2 列中我的“SubID”的副本。我还想知道是否需要确保我在我的转发器测量变量标题中有一个分隔符,以使此功能起作用(例如,“Rapport.1、Rapport.2 等”)。

我还想知道如何使用 reshape pkg 中的“melt”功能产生我想要的结果。以及 tidyr pkg 中的“收集”功能。当我在下面尝试“melt”时,我得到一个错误并且它不会运行:

当我尝试下面的“收集”时,我得到一列包含变量名称“Rapport.1…”和“STRS.1…”的堆叠,另一列包含值:

我知道使用这两个包都有好处,所以我想了解如何使用“gather”和“melt”功能产生我想要的结果。有人可以帮忙吗?