python - 购物篮数据的热编码数据

翻译自：https://stackoverflow.com/questions/53572281 2018-12-01T15:28:19.280

235 次

我有一个数据集，我试图在其上确定关联规则。合并映射后的数据如下：

遵循此参考：Python 中的市场篮子分析。我看到我可以使用该groupby方法使用订单 ID 和使用以下命令对数据进行分组：

basket = df_order_mapped.groupby(['order_id']).sum().unstack()

我可以通过 order_id 对所有东西进行分组，购买的单个产品之间没有空格。但是，从这里开始，我对如何执行参考中所做的一种热编码一无所知。参考使用命令：

basket = (df[df['Country'] =="France"]
          .groupby(['InvoiceNo', 'Description'])['Quantity']
          .sum().unstack().reset_index().fillna(0)
          .set_index('InvoiceNo'))

尽管我试图一一理解每个单独的命令，但我似乎无法理解事物。就像我尝试同时使用groupbyorder_id 和 product_id 的测试一样，但出现错误：

IndexError: index 838323453 is out of bounds for axis 0 with size 838322411

行数为3m，潜在产品总数为25000。

如果有人可以帮助我，我将不胜感激。

提前致谢。

python - 购物篮数据的热编码数据

0 回答 0

Related

Reference