问题标签 [pandas-groupby]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
8645 浏览

pandas - Python pandas如何获得groupby的反转

我有两个数据框。除了一列之外,它们是相同的。我想根据第一个数据帧的平均值更改第二个数据帧的列。对于后者,我必须使用 groupby,但是我不知道如何获得反向。下面是一个最小示例,在此特定示例中,df_two 最终应该与 df_one 相同。我的问题是如何从 tmp 到 df2_new - 请参阅下面的代码。

0 投票
4 回答
120311 浏览

python - 在python中计算DataFrame每一列中的非零值

我有一个 python-pandas-DataFrame,其中第一列是"user_id"标签,其余列是标签("Tag_0""Tag_122")。

我有以下格式的数据:

我的目标是Sum(Tag)/Count(NonZero(Tags))为每个 user_id实现

df.groupby('user_id').sum(),给了我sum(tag),但是我对计算非零值一无所知

是否有可能Sum(Tag)/Count(NonZero(Tags))在一个命令中实现?

在 MySQL 中,我可以按如下方式实现:-

任何帮助将不胜感激。

0 投票
1 回答
2411 浏览

python - 基于其他列条件的组中的 Pandas 数据帧最大值

我不确定以前是否有人问过这个问题。在熊猫数据框中,我有类似的数据

我想得到

在上面的示例中(来自第一个表)z 分别从 B 和 C 的 0 变为 B 的 2 和 C 的 2.5,然后 B 和 C 变为 0。一个重要的属性是 B 和 C 可以不同,但​​是它们会去0 同时。把它想象成一个计数器,当设备关闭时,你的所有计数器都会回到 0。上面例子中的设备是 y 和 z。

同样从第一个表中,您还可以看到 B 和 C 的 y 分别从 0 变为 1,但是它们从未回到 0,但我仍然需要 B 和 C 的最大值,即 1 和 1。

我可以编写一些 python 代码来循环并进行必要的转换,但我想知道这是否可以通过一些 pandas 魔法来实现。

0 投票
1 回答
778 浏览

python - 使用熊猫根据键变量将多行转换为单行

输入数据集

预期输出数据集:

如何通过 pandas 编程实现预期的数据集?

0 投票
3 回答
3662 浏览

python - Pandas 中的 Groupby,用 [] 填充缺失的组

欢迎任何有关此问题更准确标题的帮助..

我有一个pandas包含客户级别观察的数据框,记录日期以及客户在该日期消费的项目。它看起来像这样。

该数据集中的每个观察结果都与一个独特的商店日组合有关,但每个商店日观察结果都以消费的正数为条件列出,即df[items] > 0每个商店日对。

所以我没有,例如

等等

我需要按storeand对这个数据框进行分组day,然后对每个存储日组中的所有 obs 运行一些操作。

但是,我希望这些行存在并且长度为 0(空集),我不确定执行此操作的最佳方法。这是一个非常简单的玩具数据集。真实的非常大。

我真的不想在使用 之前添加观察结果df.groupby(['store', 'day']),因为我对每个商店日组运行其他计算,该计算使用每个组的长度作为在特定商店和日期中记录的客户数量的度量。因此,如果我添加这些观察结果b3b4,那么看起来有 2 位顾客在第 3 天和第 4 天访问了商店 b - 而没有(每个人在第 3 天和第 4 天在商店 b 什么都没买)。

0 投票
1 回答
520 浏览

python - 使用熊猫按键获取组名的最快方法是什么?

我尽可能多地四处查看。

如果我groupby在 pandas 中使用,并且我有一个组,请调用它group1,我如何获得 group1 的名称?

我正在使用groupbyand apply,所以我没有明确地拉动这些组,这就是我需要这样做的原因。

假设 df 由两件事组成。

然后我得到一个使用这个的组:http: //pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.GroupBy.get_group.html#pandas.core.groupby.GroupBy.get_group

我想避免这样做:

得到这个名字,因为那很慢..

0 投票
3 回答
9497 浏览

pandas - 按多列对数据框进行分组并将结果附加到数据框

这类似于将计算列附加到现有数据框,但是,在 pandas v0.14 中按多个列分组时,该解决方案不起作用。

例如:

以下计算有效:

但是将输出分配给新列会导致错误:

TypeError:插入列的索引与框架索引不兼容

0 投票
7 回答
192800 浏览

python - 使用 Pandas groupby 连接多行中的字符串

我想根据 Pandas 中的 groupedby 合并数据框中的几个字符串。

到目前为止,这是我的代码:

我希望最终结果如下所示:

在此处输入图像描述

我不明白如何使用 groupby 并在“文本”列中应用某种字符串连接。任何帮助表示赞赏!

0 投票
1 回答
1396 浏览

python - 如何在熊猫 groupby 中移动整个组

给定以下数据:

我现在想将整个事情向下移动 n 个,以便保留它们当前的顺序。n=1 的移位所需的输出将是:

n=2 的变化应该是:

我一直在搞乱 groupby/transform/apply,但到目前为止还没有任何工作。如果我分组然后移位,它会移动每个组,给出以下输出:

我可以通过迭代来暴力破解它,但我确信有更好的解决方案。有任何想法吗?

0 投票
3 回答
302731 浏览

python - 如何循环分组的 Pandas 数据框?

数据框:

代码:

我正在尝试遍历聚合数据,但出现错误:

ValueError:解包的值太多

@EdChum,这是预期的输出:

输出不是问题,我希望遍历每个组。