问题标签 [summarize]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
13 回答
258253 浏览

r - 如何按组获取汇总统计信息

我试图在 R/S-PLUS 中一次性获得按分类列分组的多个汇总统计信息。我发现了几个函数,但它们每次调用都会做一个统计,比如aggregate().

我正在寻找的是在一次调用中获取同一组的多个统计信息,例如平均值、最小值、最大值、标准差等,这可行吗?

0 投票
4 回答
86568 浏览

r - 在数据框上定义和应用自定义 bin

使用 python,我创建了以下包含相似性值的数据框:

我正在尝试编写一个 R 脚本来生成另一个反映 bin 的数据帧,但是如果值高于 0.5,则我的 binning 条件适用,这样

伪代码:

基于以上逻辑,我想建立一个数据框

如何将其作为脚本启动,或者我应该在 python 中执行此操作?在了解 R 的强大程度/它拥有的机器学习包的数量之后,我正在尝试熟悉它。我的目标是建立一个分类器,但首先我需要熟悉 R :)

0 投票
2 回答
4315 浏览

r - Count occurrences of a string, by row, in a large data frame

I am trying to count a binary character outcome by row in a large data frame:

What I need to know is the frequency of wins and losses by row. This is just a short example (fragment of large simulated output) but for row 1, in five simulations, I have five Losses, row two three loss and two win, etc.

I was hoping to generate either a separate table that shows the frequency of wins/loss by row or, if that won't work, add two new columns: one that provides the number of "Win" and "Loss" for each row.

Each row is a different case, and each column is a replicate of that case. This appears as a data frame of factors with two levels "Loss" "Win".

0 投票
2 回答
610 浏览

r - 使用 dplyr 总结 R 中未知的列数

我有以下data.frame(df)

我想要实现的目标如下: - 按 Grp 分组,简单 - 然后汇总,以便为每个组对列求和并创建包含所有 ID1 和 ID2 的字符串的列

它会是这样的:

一切都很好,我知道列数(Col1,Col2,Col3),但是我希望能够实现它,以便它适用于已知且始终命名为相同 ID1、ID2、Grp 的数据框,以及任意数量的名称未知的附加数字列。

有没有办法在 dplyr.

0 投票
0 回答
278 浏览

r - 基于 max(Date) 汇总日期时如何消除警告消息

我正在尝试根据 ExitDate 的 max() 按 ID 汇总日期。但是,当我运行以下代码时,我会收到此消息:

在 max.default(structure(NA_real_, class = "Date"), na.rm = TRUE) 中:max 没有非缺失参数;返回-Inf

我已导入数据并使用 setAs 设置日期值。使用 setClass 消除了初始警告消息(如另一个答案中所述),但我不知道如何消除这些其他警告消息。

任何建议将不胜感激!

0 投票
3 回答
25329 浏览

python - dplyr 通过多个函数汇总/聚合的 pandas 等价物是什么?

我在从 R 过渡到 pandas 时遇到问题,其中dplyr包可以轻松分组并执行多个摘要。

请帮助改进我现有的 Python pandas 代码以进行多个聚合:

问题:

  • 太冗长
  • 可能可以优化和高效。(我重写了一个for-loop groupby实现groupby.agg,性能提升很大)。

在 R 中,等效代码为:


更新:@ayhan 解决了我的问题,这是我将在此处发布的后续问题,而不是作为评论:

groupby().summarize(newcolumn=max(col2 * col3))Q2)当函数是 2+ 列的复合函数时,即聚合/汇总的等价物是什么?

0 投票
1 回答
581 浏览

count - 水晶报告按组计数实例然后求和

我的子报表对帐户 ID 进行分组,然后是发票编号。在帐户 ID 中,我可以有多个发票编号。

例如:

账户 1234

  • 发票 6789
  • 发票 5432
  • 发票 5432
  • 发票 9999

我想要的是发票数量。使用该示例,我应该得到 3 个计数。帐户 ID 下有 3 个唯一的发票编号。我已经尝试过运行总计、公式和摘要。

0 投票
1 回答
2246 浏览

svn - SVN diff - 选项'--summarize'

每当我使用

我得到类似的东西:

那些开头的字母(例如 A、M)是干什么用的?

0 投票
3 回答
32839 浏览

r - R - dplyr 汇总并保留其他列

我正在对数据进行分组,然后对其进行汇总,但也想保留另一列。我不需要对该列的内容进行任何评估,因为它始终与 group_by 列相同。我可以将它添加到 group_by 语句中,但这似乎并不“正确”。我想State.Full.Name在分组后保留State。谢谢

0 投票
2 回答
1166 浏览

r - 根据日期对 dplyr 中的组进行条件汇总

我是一个 R 菜鸟,并试图对数据集执行摘要,该数据集汇总了在该 ID 的“B”类型事件之间发生的每个 ID 的事件类型数。这是一个示例来说明:

产生:

每当发生事件“B”时,我想知道在该 B 事件之前发生的每种事件类型的数量,但在该 ID 的任何其他 B 事件之后发生。我想最终得到的是这样的表格:

在研究中,这个问题最接近:summarizing a field based on the value of another field in dplyr

我一直在努力使这项工作:

但它会出错(而且,即使它有效,它也不会考虑同一 ID 中的 2 个“B”事件,例如 id=3)