问题标签 [group-summaries]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 是否有一个 dplyr 函数来确定组内最常遇到的分类值?
我希望使用 dplyr 将客户交易数据框总结为每个客户的一行。对于连续变量,这很简单 - 使用总和/平均值等。对于分类变量,我想选择“模式” - 即组内最常见的值并在多个列中执行此操作,例如:
例如取表 Cus1
并生成表 Cus_Summary:
有没有可以提供这个功能的包?或者有没有人可以在 dplyr 步骤中跨多个列应用的函数?
我并不担心处理关系的聪明方法——任何关系的输出就足够了(尽管任何关于如何最好地处理关系的建议都会很有趣和赞赏)。
r - 汇总不同聚合级别的数据 - R 和 tidyverse
我正在创建一堆基本状态报告,而我发现乏味的一件事是在我的所有表格中添加一个总行。我目前正在使用 Tidyverse 方法,这是我当前代码的一个示例。我正在寻找的是一个默认包含几个不同级别的选项。
重复多次这样做非常乏味。我有点想要:
仅供参考 - 如果您熟悉 SAS,我正在寻找可通过 proc 中的类、方式或类型语句获得的相同类型的功能,这意味着让我可以控制汇总级别并在一次调用中获得多个级别。
任何帮助表示赞赏。我知道我可以创建自己的函数,但希望有些东西已经存在。我也更愿意坚持使用 tidyverse 编程风格,尽管我并没有这样做。
r - 如何修复 summarise_all() 中的错误“'x' 和 'w' 必须具有相同的长度”?
我想使用 dplyr::summarise_all() 和 weighted.mean 来计算每个组的许多列的加权平均值。
我尝试直接使用匿名函数,但它返回一个错误:'x'和'w'必须具有相同的长度。我知道我可以使用 summarise() 和 weighted.mean,但是这样我需要指定所有列名,这不是我想要的。
这里数据框有组列A、权重列B和其他列。我希望 A 中的每个组的 B 列的其他列值的加权平均值。我希望我可以使用 dplyr 和 weighted.mean 来做到这一点,但我对其他可用方法没问题。
r - 在嵌套组上应用 `qwraps2`
使用该包qwraps2
,我们可以在 HTML 和 Latex 中创建漂亮的汇总表。
data.frames
也支持与一个组分组,但是嵌套组呢?有没有办法直接将data.frame
带有嵌套组的 a 传递给qwraps2::summary_table()
?
或者,有没有办法cbind()
两个输出?
考虑以下:
R代码
vs
但是, 我想分组gear
。因此,每个vs
组将具有三个gear
子组(gear
== 3、4 或 5)。
以下导致错误:
r - 在R中按年份计算偏斜和峰度
我有一个看起来像这样的表:
(“天”列不参与我的偏斜峰度计算,它只是在我的表中)
我想要一个计算按年份分组的偏斜和峰度值的表:
我不知道如何按年份对其进行分组以执行这些计算。
r - 按列中的相对差异分组(考虑数据的排序方式)
我有一个数据框。片段是:
我需要对 df1 进行分组y
并求和,x
但要考虑 y 的顺序。即我需要在每个新组之后创建新组,y
并对相应x
的 . 所需的输出是
如何在 R 中做到这一点?
r - 合并数据框中的行而不分组
我想合并中的行col2
,获得一个没有像这样的空字符串的小标题
正如我在其他答案中发现的那样,分组似乎不是一个选项,而我没有任何参考列
r - 我如何根据 R 中的标量值汇总总计?
我有一个数据框,其中有一列“折扣”,值从 0 到 1。我想根据折扣的分组值计算行数,例如折扣 0-0.09 xxx 书籍、0.1 - 0.19 xxx 书籍等
所以,我想计算从 0-0.09、0.1-0.19 到 0.9-1 的折扣书籍
r - 使用多个分组变量获取组平均值并排除自己的组值
我正在寻找一种更快的方法来计算具有多个分组变量的组平均值,同时排除自己的组值。一个思想实验将在同一年从同一州的县中找出一个县的平均值(例如价格),不包括本县的价值。这是一个玩具数据集。
上面的代码给了我想要的结果,但是当我将它应用到更大的数据集(具有更多分组变量)时,它变得非常慢。您对如何加快速度有什么建议吗?
如果原始方法不正确,请同时指出。