问题标签 [summarize]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何按组获取汇总统计信息
我试图在 R/S-PLUS 中一次性获得按分类列分组的多个汇总统计信息。我发现了几个函数,但它们每次调用都会做一个统计,比如aggregate()
.
我正在寻找的是在一次调用中获取同一组的多个统计信息,例如平均值、最小值、最大值、标准差等,这可行吗?
r - 在数据框上定义和应用自定义 bin
使用 python,我创建了以下包含相似性值的数据框:
我正在尝试编写一个 R 脚本来生成另一个反映 bin 的数据帧,但是如果值高于 0.5,则我的 binning 条件适用,这样
伪代码:
基于以上逻辑,我想建立一个数据框
如何将其作为脚本启动,或者我应该在 python 中执行此操作?在了解 R 的强大程度/它拥有的机器学习包的数量之后,我正在尝试熟悉它。我的目标是建立一个分类器,但首先我需要熟悉 R :)
r - Count occurrences of a string, by row, in a large data frame
I am trying to count a binary character outcome by row in a large data frame:
What I need to know is the frequency of wins and losses by row. This is just a short example (fragment of large simulated output) but for row 1, in five simulations, I have five Losses, row two three loss and two win, etc.
I was hoping to generate either a separate table that shows the frequency of wins/loss by row or, if that won't work, add two new columns: one that provides the number of "Win" and "Loss" for each row.
Each row is a different case, and each column is a replicate of that case. This appears as a data frame of factors with two levels "Loss" "Win".
r - 使用 dplyr 总结 R 中未知的列数
我有以下data.frame(df)
我想要实现的目标如下: - 按 Grp 分组,简单 - 然后汇总,以便为每个组对列求和并创建包含所有 ID1 和 ID2 的字符串的列
它会是这样的:
一切都很好,我知道列数(Col1,Col2,Col3),但是我希望能够实现它,以便它适用于已知且始终命名为相同 ID1、ID2、Grp 的数据框,以及任意数量的名称未知的附加数字列。
有没有办法在 dplyr.
r - 基于 max(Date) 汇总日期时如何消除警告消息
我正在尝试根据 ExitDate 的 max() 按 ID 汇总日期。但是,当我运行以下代码时,我会收到此消息:
在 max.default(structure(NA_real_, class = "Date"), na.rm = TRUE) 中:max 没有非缺失参数;返回-Inf
我已导入数据并使用 setAs 设置日期值。使用 setClass 消除了初始警告消息(如另一个答案中所述),但我不知道如何消除这些其他警告消息。
任何建议将不胜感激!
python - dplyr 通过多个函数汇总/聚合的 pandas 等价物是什么?
我在从 R 过渡到 pandas 时遇到问题,其中dplyr
包可以轻松分组并执行多个摘要。
请帮助改进我现有的 Python pandas 代码以进行多个聚合:
问题:
- 太冗长
- 可能可以优化和高效。(我重写了一个
for-loop groupby
实现groupby.agg
,性能提升很大)。
在 R 中,等效代码为:
更新:@ayhan 解决了我的问题,这是我将在此处发布的后续问题,而不是作为评论:
groupby().summarize(newcolumn=max(col2 * col3))
Q2)当函数是 2+ 列的复合函数时,即聚合/汇总的等价物是什么?
count - 水晶报告按组计数实例然后求和
我的子报表对帐户 ID 进行分组,然后是发票编号。在帐户 ID 中,我可以有多个发票编号。
例如:
账户 1234
- 发票 6789
- 发票 5432
- 发票 5432
- 发票 9999
我想要的是发票数量。使用该示例,我应该得到 3 个计数。帐户 ID 下有 3 个唯一的发票编号。我已经尝试过运行总计、公式和摘要。
svn - SVN diff - 选项'--summarize'
每当我使用
我得到类似的东西:
那些开头的字母(例如 A、M)是干什么用的?
r - R - dplyr 汇总并保留其他列
我正在对数据进行分组,然后对其进行汇总,但也想保留另一列。我不需要对该列的内容进行任何评估,因为它始终与 group_by 列相同。我可以将它添加到 group_by 语句中,但这似乎并不“正确”。我想State.Full.Name
在分组后保留State
。谢谢
r - 根据日期对 dplyr 中的组进行条件汇总
我是一个 R 菜鸟,并试图对数据集执行摘要,该数据集汇总了在该 ID 的“B”类型事件之间发生的每个 ID 的事件类型数。这是一个示例来说明:
产生:
每当发生事件“B”时,我想知道在该 B 事件之前发生的每种事件类型的数量,但在该 ID 的任何其他 B 事件之后发生。我想最终得到的是这样的表格:
在研究中,这个问题最接近:summarizing a field based on the value of another field in dplyr
我一直在努力使这项工作:
但它会出错(而且,即使它有效,它也不会考虑同一 ID 中的 2 个“B”事件,例如 id=3)