问题标签 [tidyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
104 浏览

r - 用定义的映射在 R 中用字符列替换数字列

我做了一些搜索,但找不到我的问题的答案。

假设我有一个数据框,其中包含student_id整数列和其他一些列。我还有另一个包含两列的映射表,第一列是字符串student_id,第二列student_name是字符串。student_id用 替换色谱柱的最佳方法是student_name什么?注意映射表是唯一的,但是数据框可以有多个相同的学生id。

如果有帮助,我正在使用dplyrtidyr打包。

0 投票
1 回答
343 浏览

r - 使用gather来整理R中的数据集-属性不相同

我的最终目标是用我的数据集计算两个值 (T/D) 之间的比率,但似乎最好的方法是使用 tidyr 之类的东西来整理我的数据集。我一直在尝试使用收集和分离,但遇到了一些问题。数据如下所示:

但我希望它看起来像这样:

我尝试了以下。但我不断收到错误。警告消息:变量之间的属性不相同;他们将被丢弃。

当我清理数据时,我想使用以下内容来获取 T/D 比率。

任何有关清理我的数据和运行该功能的建议将不胜感激。谢谢!

0 投票
2 回答
1038 浏览

r - 通过 dplyr 中的相同组变量过滤两个数据帧

在许多情况下,在按一些变量对数据框进行分组后,我想应用一个函数,该函数使用来自另一个按相同变量分组的数据框的数据。我发现的最佳解决方案是在函数内部使用semi_join,如下所示:

问题是semi_join返回 'Joining by...' 消息,并且,当我使用该函数进行引导时,我收到许多使控制台崩溃的消息。那么,有什么方法可以减少连接的冗长吗?你知道一种更优雅的方式来做这样的事情吗?

PS 几年前我问了一个类似的问题plyrsubset inside a function by the variables specified in ddply

0 投票
1 回答
283 浏览

r - tidyr:在不展开所有列的情况下展开

开始学习tidyr和遇到麻烦spread()

这是一个假的实验数据集:

看一下df,我们可以看到activitydrug是主体内因素,而depressed是主体间因素:

我想转换df为宽格式,其中每个主题mood都表示在单独的列中,每一行对应于 和 的activity组合drug。不幸的是,我不知道如何避免为每个级别创建行集depressed。这是我到目前为止所拥有的:

我想避免扩展depressed,所以结果输出只有四行。

0 投票
2 回答
3313 浏览

regex - 使用 tidyr 从列中提取值

我将 data.frameannot定义为:

data.frame 如下所示:

每个条目都包含 C、F、P 中的单词、特殊字符、字母数字字符。我想将所有对应的值拆分C:xxx;F:yyy:P:zzz为单独的列,其对应的值如下所示:

我尝试使用 tidyr 在 R 中执行以下命令

但它返回了以下错误:

0 投票
2 回答
1021 浏览

r - 在 R 中使用 spread 或 cast 创建因子级指标变量

假设数据结构如下

我怎样才能制作一个类似的数据结构,以便我为每个 a、b、c、d 的每个级别都有一个指标。

我想要一个 2 x 9 的数据框,其中包含 MemberID、a.Y1、a.Y2、b.Y1、b.Y2、...

理想情况下,我想用这些工具来做这件事,spread或者cast因为我已经使用了一些工具,并且想了解更多关于如何使用它们的信息。

0 投票
1 回答
54 浏览

r - multiple functions in summrise_each() with multiple variables

The following works. I am sure there is a better solution.

0 投票
3 回答
446 浏览

r - 快速/优雅的方式来连接多对列

是否有一种优雅/快速的方式来组合 data.frame 中的所有列对?

例如,使用mapply()andpaste()我们可以把这个data.frame:

进入这个data.frame:

但是,当应用于大型数据集时,这感觉很笨拙并且有点慢。有什么建议,也许使用 Hadley 包?

编辑:理想的解决方案可以轻松扩展到大量列,这样列的名称就不需要包含在函数调用中。谢谢!

0 投票
3 回答
3048 浏览

r - 将多列组合成整齐的数据

我的数据集如下所示:

使用一些代码来创建它:

)

我想整理这些数据看起来像这样:

以下解决方案没有让我到达我需要的地方: Gather multiple sets of columns and Combining multiple columns into one

我怀疑 Hadley 令人惊叹的 tidyr pakcage 是要走的路……只是想不通。任何帮助将不胜感激。

0 投票
1 回答
1144 浏览

r - R:DPLYR 包:调用自定义函数时 bind_rows 失败

使用 DPLYR 和 TIDYR,我正在尝试创建一个整洁的数据集版本,其中行可能会丢失,具体取决于某些列的数据。我创建了一个函数,该函数在新的 tbl_df(data.frame) 中返回丢失的行(通过使用默认数据创建它们)(我对其进行了单元测试,它适用于特定数据)。

但是,当从“bind_rows”调用它时,我收到以下错误:data.frame 中的错误(a,b,c,...:找不到对象“A”。

例如,我的数据如下所示:

我的代码如下所示:

任何想法我做错了什么?我还是 R、DPLYR/TIDYR 的新手……

注意:如果我删除了对“bind_rows”的最后一次调用,则该表将按预期使用正确的 A、B、C 等列进行清理。我还在这个特定场景中使用了一个“for”循环,我知道这可能不是最佳的,但现在,我将使用这个版本,以便让它工作,然后尝试优化我的代码(或矢量化)。

谢谢!