3

我开始使用 arulesSequences,目的是对我拥有的一些数据执行频繁序列挖掘。商店 A 的数据如下所示:

CUSTOMER_ID seq_num 购买的商品尺寸

1 17399 1 2 {100,100}

2 17399 2 1 {800}

3 17399 3 2 {900,900}

4 17399 4 1 {405}

5 17399 5 4 {200,505,200,505}

这意味着这个顾客 #17399 多次在这家商店 A 购物。在他/她的第一次购物之旅中,此人购买了商品代码为 100 和 100 的商品(2 件商品)。在他/她的第二次购物之旅中,该客户只购买了商品 800。以此类推。

现在我想在这个客户上使用 cSPADE,订单在“购物篮”中并不重要,但在购物行程中却很重要。所以最终我对客户 17399 的记录是:

CUSTOMER_ID 购买了_items

17399 {(100,100),800,(900,900),405,(200,505,200,505)}

其中 {} 包含完整序列, () 表示每次购物行程。

我总体上理解这是一种可能性。但是,我没有看到任何示例(搜索了几个小时)或明确谈论支持这一点的 arulesSequences 的注释。有什么想法吗?将不胜感激。

谢谢你的时间。

4

1 回答 1

3

经过几个小时的学习,我将添加我找到的答案,以防它对其他人有用。

答案是肯定的 - 该软件包确实支持跨篮子的重复项目。事实上,本网站上的示例:https ://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Sequence_Mining/SPADE显示了这种情况。虽然在此示例中没有两个序列号(属于同一事务)相同,但存在重叠元素。即使它们是相同的(我使用了示例输入 .txt ),当您使用 read_basket 和 cSPADE 时也没有错误,这是我试图应用的。

网上有很多例子都是先验的,不允许在篮子中重复项目。这会引起很多混乱。上面粘贴的示例是一个很好的示例,它显示了 cSPADE 的使用。希望这对那里的人有所帮助。

于 2016-01-11T23:19:34.650 回答