问题标签 [dplyr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 计算组平均值、总和或其他汇总统计数据。并将列分配给原始数据
我想在分组变量(“组”)的每个级别内计算数值变量(“值”)的mean
(或长度为 1 的任何其他汇总统计数据,例如、min
、max
)。length
sum
应将汇总统计量分配给与原始数据具有相同长度的新变量。也就是说,原始数据的每一行都应该有一个对应于当前组值的值——数据集不应该折叠到每组一行。例如,考虑 group :mean
前
后
r - 如何按组获取汇总统计信息
我试图在 R/S-PLUS 中一次性获得按分类列分组的多个汇总统计信息。我发现了几个函数,但它们每次调用都会做一个统计,比如aggregate()
.
我正在寻找的是在一次调用中获取同一组的多个统计信息,例如平均值、最小值、最大值、标准差等,这可行吗?
r - 如何删除任何零值的行
我有一个问题要解决如何在 R 中删除具有零值的行。另一方面,我可以na.omit()
用来删除所有 NA 值或用于complete.cases()
删除包含 NA 值的行。
有谁知道如何删除 R 中具有零值的行?
例如 :
前
后
sql - 如何在 R 中模拟 SQL 排名函数?
什么是 R 等价函数,如 Oracle ROW_NUMBER()
、RANK()
或DENSE_RANK()
(“根据行的顺序为行分配整数值”;参见http://www.orafaq.com/node/55)?
我同意每个功能的功能都可以通过特殊方式实现。但我主要关心的是性能。为了内存和速度,最好避免使用连接或索引访问。
r - R中是否有用于对象关系映射的包?
(通过对象关系映射,我的意思是这里描述的内容:维基百科:对象关系映射。)
以下是我在 R 中如何想象这项工作:一种“虚拟数据框”链接到数据库,并在访问时返回 SQL 查询的结果。例如,head(virtual_list)
实际上会返回(select * from mapped_table limit 5)
映射数据库的结果。
我找到了 John Myles White 的这篇文章,但过去 3 年似乎没有任何进展。
是否有实现此功能的工作包?
如果不,
- 会有用吗?
- 实现它的最佳方法是什么(S4?)?
r - 如何获得后续观察(国家年)之间的价值差异?
假设,我在 10 年内有 5 个国家/地区的分数,例如:
现在,我想创建一个新变量“期间”,如果下一年的得分与上一年的得分相差 +/- 0.5,则该变量为 1,如果不正确,则为 0。我想为所有 5 个国家这样做。如果能够识别 period = 1 的国家/地区年份并将此信息显示在表格中,那就太好了。
我非常希望这不是太多的要求。我在中尝试过,dist
但library(proxy)
我不知道如何将函数限制为成对观察而不是整行。太感谢了!!
r - 合并数据框中的行,其中行不相交并包含 NA
我有一个有两行的数据框:
有没有一种简单的方法来合并这两行?如果我在“346”中重命名“345”会怎样,这会让事情变得更容易吗?
r - 我可以让这个 dplyr + data.table 任务更快吗?
我想这dplyr
不仅仅是一个plyr
问题。为了速度,我data.table
在我编写的一些代码中使用。在中间步骤中,我有一个包含大约 32,000 行的基因组数据的表:
编辑
或者像这样的前一百行数据(感谢 Ricardo Saporta 的说明)
结束编辑
接下来我想创建每行与其他行的所有可能组合(按 chr 分组)。这将在其他一些数据上形成一个查询(连接),所以我认为最好(也是最简单)预先计算:
data.frame
在我看来,这很慢……虽然与 using或 base 函数相比,by()
或者lapply()
它要快得多。然而,这实际上是我正在测试的一个小型数据集。
所以......我想知道是否有人对更快版本的outerFun有任何想法???有比rep()
or更快的方法rep.int()
吗?
r - 在 data.table 或 dplyr 中的列之间计算?
我想用data.table
一个非常简单的任务来完成一个大型数据集。
计算每个 ID 的 val1 和 val2 的平均值。
详情请参阅随附的假数据。
在这里,我想计算每个 ID,val1 和 val2 的平均值。
另请注意,在每个 ID 中,都有不同的级别。但是对于每个唯一 ID,我只想要一个表示合并不同级别 val1 和 val2 的意思。
--- 身份证 | 意思是 - -
-- ID1 | ...
-- ID2 | ...
-- ID3 | ...
我尝试了以下代码,但它不起作用。
但它不起作用。我知道怎么做reshape2
,首先melt
,然后dcast
。
但是原始数据集比较大,20M行12个字段,计算时间比较长。
所以我更喜欢使用data.table
or dplyr
。
r - 使用字符串向量输入在 dplyr 中按多列分组
我试图将我对 plyr 的理解转移到 dplyr 中,但我不知道如何按多列进行分组。
将 plyr 示例转换为 dplyr-esque 语法时,我缺少什么?
2017 年编辑:Dplyr 已更新,因此可以使用更简单的解决方案。查看当前选择的答案。