python - 列日期的 1 年滚动平均熊猫

Question

我想计算此 Dataframe 中每一行的 1 年滚动平均值test：

index   id      date        variation
2313    7034    2018-03-14  4.139148e-06
2314    7034    2018-03-13  4.953194e-07
2315    7034    2018-03-12  2.854749e-06
2316    7034    2018-03-09  3.907458e-06
2317    7034    2018-03-08  1.662412e-06
2318    7034    2018-03-07  1.346433e-06
2319    7034    2018-03-06  8.731700e-06
2320    7034    2018-03-05  7.145597e-06
2321    7034    2018-03-02  4.893283e-06
...

例如，我需要计算：

70342018-03-14 和 2017-08-14 之间id 变化的平均值
70342018-03-13 和 2017-08-13 之间id 变化的平均值
等等

我试过了：

test.groupby(['id','date'])['variation'].rolling(window=1,freq='Y',on='date').mean()

但我收到错误消息：

ValueError: invalid on specified as date, must be a column (if DataFrame) or None

在这种情况下如何使用 pandasrolling()功能？

[编辑 1] [感谢 Sacul]

我测试过：

df['date'] = pd.to_datetime(df['date'])

df.set_index('date').groupby('id').rolling(window=1, freq='Y').mean()['variation']

但是freq='Y'不起作用（我得到了：）ValueError: Invalid frequency: Y然后我使用了window = 365, freq = 'D'.

但是还有另一个问题：因为每个组合的日期都没有 365 个连续日期id-date，所以结果总是空的。即使缺少日期，我也想忽略它们并考虑当前日期和（当前日期 - 365）之间的所有日期来计算滚动平均值。例如，假设我有：

index   id      date        variation
2313    7034    2018-03-14  4.139148e-06
2314    7034    2018-03-13  4.953194e-07
2315    7034    2017-03-13  2.854749e-06

然后，

对于 7034 2018-03-14：我想计算 MEAN(4.139148e-06,4.953194e-07, 2.854749e-06)
对于 7034 2018-03-13：我也想计算 MEAN(4.139148e-06,4.953194e-07, 2.854749e-06)

我怎样才能做到这一点？

[编辑 2]

最后，我使用下面的公式通过忽略缺失值来计算 1 年的滚动中位数、平均值和标准差：

pd.rolling_median(df.set_index('date').groupby('id')['variation'],window=365, freq='D',min_periods=1)

pd.rolling_mean(df.set_index('date').groupby('id')['variation'],window=365, freq='D',min_periods=1)

pd.rolling_std(df.set_index('date').groupby('id')['variation'],window=365, freq='D',min_periods=1)

score 4 · Accepted Answer

我相信这应该对你有用：

# First make sure that `date` is a datetime object:

df['date'] = pd.to_datetime(df['date'])

df.set_index('date').groupby('id').rolling(window=1, freq='A').mean()['variation']

当索引时使用pd.DataFrame.rollingwith datetime 效果很好date，这就是我使用的原因df.set_index('date')（如文档的示例之一所示）

我无法真正测试它是否适用于您的示例数据框的年度平均值，因为只有一年且只有一个 ID，但它应该可以工作。

可以说是更好的解决方案：

[编辑]正如 Mihai-Andrei Dinculescu 所指出的，freq现在是一个已弃用的论点。这是一种替代方法（可能更面向未来）来做您正在寻找的事情：

df.set_index('date').groupby('id')['variation'].resample('A').mean()

您可以查看resample文档以获取有关其工作原理的更多详细信息，以及有关频率参数的此链接。

python - 列日期的 1 年滚动平均熊猫

1 回答 1

可以说是更好的解决方案：

Related

Reference