问题标签 [dplyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
19188 浏览

r - 计算组平均值、总和或其他汇总统计数据。并将列分配给原始数据

我想在分组变量(“组”)的每个级别内计算数值变量(“值”)的mean(或长度为 1 的任何其他汇总统计数据,例如、minmax)。lengthsum

应将汇总统计量分配给与原始数据具有相同长度的新变量。也就是说,原始数据的每一行都应该有一个对应于当前组值的值——数据集应该折叠到每组一行。例如,考虑 group :mean

0 投票
13 回答
258253 浏览

r - 如何按组获取汇总统计信息

我试图在 R/S-PLUS 中一次性获得按分类列分组的多个汇总统计信息。我发现了几个函数,但它们每次调用都会做一个统计,比如aggregate().

我正在寻找的是在一次调用中获取同一组的多个统计信息,例如平均值、最小值、最大值、标准差等,这可行吗?

0 投票
12 回答
207079 浏览

r - 如何删除任何零值的行

我有一个问题要解决如何在 R 中删除具有零值的行。另一方面,我可以na.omit()用来删除所有 NA 值或用于complete.cases()删除包含 NA 值的行。

有谁知道如何删除 R 中具有零值的行?

例如 :

0 投票
5 回答
16674 浏览

sql - 如何在 R 中模拟 SQL 排名函数?

什么是 R 等价函数,如 Oracle ROW_NUMBER()RANK()DENSE_RANK()(“根据行的顺序为行分配整数值”;参见http://www.orafaq.com/node/55)?

我同意每个功能的功能都可以通过特殊方式实现。但我主要关心的是性能。为了内存和速度,最好避免使用连接或索引访问。

0 投票
6 回答
5116 浏览

r - R中是否有用于对象关系映射的包?

(通过对象关系映射,我的意思是这里描述的内容:维基百科:对象关系映射。)

以下是我在 R 中如何想象这项工作:一种“虚拟数据框”链接到数据库,并在访问时返回 SQL 查询的结果。例如,head(virtual_list)实际上会返回(select * from mapped_table limit 5)映射数据库的结果。

我找到了 John Myles White 的这篇文章,但过去 3 年似乎没有任何进展。

是否有实现此功能的工作包?

如果不,

  1. 会有用吗?
  2. 实现它的最佳方法是什么(S4?)?
0 投票
4 回答
2717 浏览

r - 如何获得后续观察(国家年)之间的价值差异?

假设,我在 10 年内有 5 个国家/地区的分数,例如:

现在,我想创建一个新变量“期间”,如果下一年的得分与上一年的得分相差 +/- 0.5,则该变量为 1,如果不正确,则为 0。我想为所有 5 个国家这样做。如果能够识别 period = 1 的国家/地区年份并将此信息显示在表格中,那就太好了。

我非常希望这不是太多的要求。我在中尝试过,distlibrary(proxy)我不知道如何将函数限制为成对观察而不是整行。太感谢了!!

0 投票
2 回答
21083 浏览

r - 合并数据框中的行,其中行不相交并包含 NA

我有一个有两行的数据框:

有没有一种简单的方法来合并这两行?如果我在“346”中重命名“345”会怎样,这会让事情变得更容易吗?

0 投票
1 回答
1083 浏览

r - 我可以让这个 dplyr + data.table 任务更快吗?

我想这dplyr不仅仅是一个plyr问题。为了速度,我data.table在我编写的一些代码中使用。在中间步骤中,我有一个包含大约 32,000 行的基因组数据的表:

编辑

或者像这样的前一百行数据(感谢 Ricardo Saporta 的说明)

结束编辑

接下来我想创建每行与其他行的所有可能组合(按 chr 分组)。这将在其他一些数据上形成一个查询(连接),所以我认为最好(也是最简单)预先计算:

data.frame在我看来,这很慢……虽然与 using或 base 函数相比,by()或者lapply()它要快得多。然而,这实际上是我正在测试的一个小型数据集。

所以......我想知道是否有人对更快版本的outerFun有任何想法???有比rep()or更快的方法rep.int()吗?

0 投票
4 回答
1437 浏览

r - 在 data.table 或 dplyr 中的列之间计算?

我想用data.table一个非常简单的任务来完成一个大型数据集。

计算每个 ID 的 val1 和 val2 的平均值。

详情请参阅随附的假数据。

在这里,我想计算每个 ID,val1 和 val2 的平均值。

另请注意,在每个 ID 中,都有不同的级别。但是对于每个唯一 ID,我只想要一个表示合并不同级别 val1 和 val2 的意思。

--- 身份证 | 意思是 - -

-- ID1 | ...

-- ID2 | ...

-- ID3 | ...

我尝试了以下代码,但它不起作用。

但它不起作用。我知道怎么做reshape2,首先melt,然后dcast

但是原始数据集比较大,20M行12个字段,计算时间比较长。

所以我更喜欢使用data.tableor dplyr

0 投票
10 回答
109689 浏览

r - 使用字符串向量输入在 dplyr 中按多列分组

我试图将我对 plyr 的理解转移到 dplyr 中,但我不知道如何按多列进行分组。

将 plyr 示例转换为 dplyr-esque 语法时,我缺少什么?

2017 年编辑:Dplyr 已更新,因此可以使用更简单的解决方案。查看当前选择的答案。