我有一个csv
客户数据文件,我想根据过去的行为找出他们购买产品的概率。
该表如下所示:
custId prodId purchased
001 0001 0
002 0001 0
006 1001 1
001 0501 0
012 8001 0
189 0071 0
487 0001 1
... ... ...
custId
是客户 ID,prodId
是产品,列既不是唯一的,也不是custId-prodId
唯一的,因为客户可以多次显示相同的产品。
理想的输出是这样的:
custId purchased
001 .0999
002 0
006 1
012 0
189 .75
487 1
... ...
我正在考虑这样做,bash
因为文件太大而无法放入内存。
有什么建议么?