我有一个数据集,我试图在其上确定关联规则。合并映射后的数据如下:
遵循此参考:Python 中的市场篮子分析。我看到我可以使用该groupby
方法使用订单 ID 和使用以下命令对数据进行分组:
basket = df_order_mapped.groupby(['order_id']).sum().unstack()
我可以通过 order_id 对所有东西进行分组,购买的单个产品之间没有空格。但是,从这里开始,我对如何执行参考中所做的一种热编码一无所知。参考使用命令:
basket = (df[df['Country'] =="France"]
.groupby(['InvoiceNo', 'Description'])['Quantity']
.sum().unstack().reset_index().fillna(0)
.set_index('InvoiceNo'))
尽管我试图一一理解每个单独的命令,但我似乎无法理解事物。就像我尝试同时使用groupby
order_id 和 product_id 的测试一样,但出现错误:
IndexError: index 838323453 is out of bounds for axis 0 with size 838322411
行数为3m,潜在产品总数为25000。
如果有人可以帮助我,我将不胜感激。
提前致谢。