问题标签 [pandas-groupby]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
16202 浏览

python - python pandas中的Groupby:快速方式

我想提高groupbypython pandas 中 a 的时间。我有这个代码:

目标是计算客户一个月内有多少合同,并将此信息添加到新列 ( Nbcontrats) 中。

  • Client: 客户端代码
  • Month: 数据提取月份
  • Contrat: 合同号码

我想改善时间。下面我只使用我的真实数据的一个子集:

如何提高执行时间?

0 投票
1 回答
24705 浏览

python - How to plot age distribution with pandas

I have Data Frame, which contains 2 columns: age and gender.

#xA;

How can I plot age distribution for each gender?

0 投票
4 回答
145228 浏览

python - 分组数据框并获得总和和计数?

我有一个看起来像这样的数据框:

如何求和Amount并计算Organisation Name, 以获得一个看起来像这样的新数据框?

我知道如何求和计数:

但不是如何做到这两点!

0 投票
2 回答
60167 浏览

python - Pandas:将多个时间序列 DataFrame 绘制成一个图

我有以下熊猫数据框:

这是一个包含多个时间序列数据的数据框,从min=1max=35。每个Group都有这样的时间序列。

我想将每个单独的时间序列 A 到 Z 绘制在 1 到 35 的 x 轴上。y 轴将是blocks每次。

我正在考虑使用类似Andrews Curves plot的东西,它将每个系列相互绘制。每个“色调”将被设置为不同的组。(欢迎其他想法。)

在此处输入图像描述

我的问题:你如何格式化这个数据框来绘制多个系列?列应该是GroupA,GroupB等吗?

如何使数据框采用以下格式:

如图所示,这是安德鲁斯图的正确格式吗?

编辑

如果我尝试:

x 轴完全不正确。所有时间序列都应从 0 到 35 绘制,全部在一个序列中。

在此处输入图像描述

我该如何解决这个问题?

0 投票
1 回答
622 浏览

python - 熊猫上一组最小/最大

在 Pandas 中,我有这样的数据集:

首先,我想按日期对数据进行分组并将每个组的最大值存储在新列中,我为此任务使用了以下代码:

现在我想创建另一列来存储以前的组最大值,因此所需的数据框如下所示:

因此,为了简单地获取前一行的值,我使用了

有什么办法可以得到另一个组的 min/max/f(x)?我以为

但它没有用。

0 投票
4 回答
793389 浏览

python - 使用 Pandas 计算每个组的唯一值

我需要计算ID每个domain.

我有数据:

我试试df.groupby(['domain', 'ID']).count()

但我想得到

0 投票
3 回答
2892 浏览

python-2.7 - Pandas:基于空行拆分数据框

我有以下数据框。

对于每组空行,例如 5,6,我想创建一个新的数据框。需要产生多个数据帧。如下所示:

0 投票
2 回答
12338 浏览

python-3.x - 在熊猫中分组,转置和附加?

我有一个如下所示的数据框:

在此处输入图像描述

每个用户有 10 条记录。现在,我想创建一个如下所示的数据框:

这意味着我需要反转该列的每 10 条记录name并附加到一个新的数据帧。

那么,它是如何做到的呢?有什么办法可以在 Pandas 中做到这一点?

0 投票
4 回答
9686 浏览

python - 每个唯一值采样一条记录(pandas,python)

我使用 python-pandas 数据框,并且我有一个包含用户及其数据的大型数据框。每个用户可以有多个行。我想为每个用户采样 1 行。我目前的解决方案似乎效率不高:

I 循环遍历唯一用户列表并为每个用户采样一行,将它们保存到不同的数据框

有没有更有效的方法来实现这一目标?我真的很想:1)避免附加到数据框usersSample。这是一个逐渐增长的对象,它严重影响了性能。2)避免一次循环一个用户。有没有办法更有效地对每个用户进行 1 次采样?

0 投票
3 回答
7519 浏览

python - 使用 pandas 滚动的滑动窗口迭代器

如果它是单行,我可以得到迭代器如下

现在我希望每个迭代器都返回一个子集X[0:9, :]X[5:14, :]等等X[10:19, :]。我如何使用滚动(pandas.DataFrame.rolling)来实现这一点?