问题标签 [summarize]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - dplyr 用另一列汇总分组数据
我有一个数据框pop.subset <-
:
我需要每个州中存储在data.frame中的人口最少的城市。我有:
这将返回 data.frame:
但我也需要这座城市。我尝试group_by
像这样在函数中包含位置:group_by(state, location)
,但是这会给出每个城市与州配对的最小值,而不是像这样与城市配对的州:
我缺少一个简单的解决方案吗?我希望我的结果是这样的:
r - 将列名作为字符串传递给 group_by 并汇总
从 dplyr 0.7 版开始,不推荐使用以下划线结尾的方法,例如 summarise_group_by_,因为我们应该使用 quosures。
见: https ://cran.r-project.org/web/packages/dplyr/vignettes/programming.html
我正在尝试使用 quo 和 !! 来实现以下示例
工作示例:
但是,在这种情况下,我需要将要分组和汇总的列指定为字符串。
我怎样才能得到与上面相同的例子?
r - 如何在汇总 group_by 函数中将字符串变量乘以另一个变量的值 n 次?
我对包 dplyr 的 group_by 中的汇总函数有疑问。
这是数据框的样子:
我需要对变量“groups”进行分组,以获得如下所示的数据框:
我的问题是我不知道如何编写嵌套在 group_by 中的汇总函数,以将字符串变量“df$strings”乘以“df$times”的值,仅当“df$times”>1 时。
谢谢您的帮助。
r - 使用 dplyr 折叠行
我是 R 新手,正在尝试使用 dplyr 根据行值折叠行。以下示例显示了示例数据。
我想根据列A
中值为 1 和 2 的行作为一行(作为第 1 行和第 2 行的平均值)的条件来汇总/折叠两行。因此最终结果将只有 12 行,因为其他 4 行已折叠。
我尝试使用以下dplyr
功能,但收效甚微。
install.packages ("tidyverse") 库 (tidyverse)
预期的输出类似于:
先感谢您。
r - Summarise_each 用于第一个非 NA 值
有没有办法指示dplyr
使用summarise_each
规范first
和na.rm=TRUE
?
我有一个包含许多 NA 和数值的数据框。A 列是患者 ID。我想通过取每个变量的第一个非 NA 来根据患者 ID 总结数据框。这没有用
提前致谢!
在这里您可以找到数据示例。然而,原始数据包含数百个不同的变量。
r - 使用 dplyr 跨列条件求和
我有一个数据框,其中有四个栖息地的样本超过八个月。每个月从每个栖息地收集十个样本。计算每个样本中物种的个体数量。下面的代码生成一个类似结构的较小数据帧。
我想按月汇总所有采样物种的个体总数。我正在使用ddply
(首选),但我愿意接受其他建议。
我得到的最接近的是将每列的总和相加,如此处所示。
这行得通,但我想知道是否有一种通用方法来处理“未知”物种数量的案例。也就是说,第一个物种总是从第 4 列开始,但最后一个物种可能在第 10 列或第 42 列。我不想将实际物种名称硬编码到摘要函数中。请注意,物种名称差异很大,例如 Doryflav 和 Pheibica。
r - R中的行总和(带有NA)
我有一个带有“var1”...“var3”列的data.frame“数据”。现在,我想从三个 var 列中计算一个新列“sum”。不幸的是,在每一行中,三个变量中只有一个具有值:
为了计算总和列,我是否必须先用 0 替换 NA,还是有更优雅的方法?谢谢!
python - 我的“总结”命令有什么问题?
你好,我正在做一个项目,我需要:
- 在你的 python 脚本中定义一个“教科书”类。
-为您拥有的5本教科书创建一个教科书课程列表。
- 制作所有五本教科书的摘要,如最后所示。
我相信我已经掌握了所有必要的信息,但是在运行以下脚本时出现此错误:
summarise() 缺少 1 个必需的位置参数:“文本”
我究竟做错了什么?我对 Python/Anaconda 很不擅长(不管有什么区别)脚本如下:
r - Dplyr 用 which.max 汇总,用 NA 汇总数据
我正在处理随时间变化的数据集,需要计算峰值变化发生的时间。我遇到了一个问题,因为某些科目缺少数据(NA)。
例子:
我在以下尝试中遇到错误:
错误是:
这似乎是由于仅在某些SOA
情况下存在的 NA。与我的实际数据一起使用complete.cases()
过于激进,并且会删除太多数据。
是否有忽略NA的解决方法?
r - dplyr summarise() 的输出
有没有一种方便的方法可以让 dplyr::summarize_all() 以更易读的格式输出结果,而无需事后手动重新排列?
最终,我希望能够更轻松地将汇总的输出移植到 Word 等中的表格中。
我想避免做类似下面的事情。
谢谢
例子: