0

我有一个数据集,我试图在其上确定关联规则。合并映射后的数据如下:

交易数据快照

遵循此参考:Python 中的市场篮子分析。我看到我可以使用该groupby方法使用订单 ID 和使用以下命令对数据进行分组:

basket = df_order_mapped.groupby(['order_id']).sum().unstack()

我可以通过 order_id 对所有东西进行分组,购买的单个产品之间没有空格。但是,从这里开始,我对如何执行参考中所做的一种热编码一无所知。参考使用命令:

basket = (df[df['Country'] =="France"]
          .groupby(['InvoiceNo', 'Description'])['Quantity']
          .sum().unstack().reset_index().fillna(0)
          .set_index('InvoiceNo'))

尽管我试图一一理解每个单独的命令,但我似乎无法理解事物。就像我尝试同时使用groupbyorder_id 和 product_id 的测试一样,但出现错误:

IndexError: index 838323453 is out of bounds for axis 0 with size 838322411

行数为3m,潜在产品总数为25000。

如果有人可以帮助我,我将不胜感激。

提前致谢。

4

0 回答 0