pandas - Pandas 等效于 SQL 窗口函数和行范围

Question

考虑最小的例子

customer   day  purchase
Joe        1       5
Joe        1      10
Joe        2       5
Joe        2       5       
Joe        4      10
Joe        7       5

在 BigQuery 中，可以执行类似的操作来获取客户在过去 2 天内每天花费的金额：

SELECT customer, day
, sum(purchase) OVER (PARTITION BY customer ORDER BY day ASC RANGE between 2 preceding and 1 preceding)
FROM table

大熊猫的等价物是什么？即，预期结果

customer   day  purchase    amount_last_2d
Joe        1       5             null  -- spent days [-,-]
Joe        1      10             null  -- spent days [-,-]
Joe        2       5               15  -- spent days [-,1]
Joe        2       5               15  -- spent days [-,1]
Joe        4      10               10  -- spent days [2,3]
Joe        7       5                0  -- spent days [5,6]

score 2 · Accepted Answer

尝试然后返回groupby_shiftreindex

df['new'] = df.groupby(['customer','day']).purchase.sum().shift().reindex(pd.MultiIndex.from_frame(df[['customer','day']])).values
df
Out[259]: 
  customer  day  purchase   new
0      Joe    1         5   NaN
1      Joe    1        10   NaN
2      Joe    2        10  15.0
3      Joe    2         5  15.0
4      Joe    4        10  15.0

更新

s = df.groupby(['customer','day']).apply(lambda x : df.loc[df.customer.isin(x['customer'].tolist()) & (df.day.isin(x['day']-1)|df.day.isin(x['day']-2)),'purchase'].sum())
df['new'] = s.reindex(pd.MultiIndex.from_frame(df[['customer','day']])).values
df
Out[271]: 
  customer  day  purchase  new
0      Joe    1         5    0
1      Joe    1        10    0
2      Joe    2         5   15
3      Joe    2         5   15
4      Joe    4        10   10
5      Joe    7         5    0

score 2 · Accepted Answer

不确定这是否是正确的方法，因为只提供一个客户，所以这是有限的；如果有不同的客户，我会使用merge而不是map；另请注意，还有一个隐含的假设，即日期已经按升序排列：

根据 and 的 groupby 组合获取购买总和customer，并day创建day与总和之间的映射：

sum_purchase = (df.groupby(["customer", "day"])
                 .purchase
                 .sum()
                 .shift()
                 .droplevel(0))

同样，对于多个客户，我不会删除customer索引，而是使用下面的合并：

获取天数之间的差异的映射：

diff_2_days = (df.drop_duplicates("day")[["day"]]
                 .set_index("day", drop=False)
                 .diff()
                 .day)

通过将上述值映射到 day 列来创建新列，然后用于np.where获取 diff 小于或等于 2 的列：

(
    df.assign(
        diff_2_days = df.day.map(diff_2_days),
        sum_purchase = df.day.map(sum_purchase),
        final=lambda df: np.where(df.diff_2_days.le(2), 
                                  df.sum_purchase, 
                                  np.nan))
      .drop(columns=["sum_purchase", "diff_2_days"])
)


    customer    day     purchase    final
0       Joe     1             5     NaN
1       Joe     1            10     NaN
2       Joe     2             5     15.0
3       Joe     2             5     15.0
4       Joe     4            10     10.0
5       Joe     7             5     NaN

在 postgres 中运行您的代码，以了解范围的作用以及它与行的不同之处；很有见地。我认为对于 Windows 函数，SQL 也很容易做到这一点。

所以，让我知道这落在了它的脸上，我很乐意重新调整它。

pandas - Pandas 等效于 SQL 窗口函数和行范围

2 回答 2

Related

Reference