r - R 中的 Apriori，arulesSequences：它是否支持“篮子”序列（单次购物行程中的订单无关紧要）？

Question

我开始使用 arulesSequences，目的是对我拥有的一些数据执行频繁序列挖掘。商店 A 的数据如下所示：

CUSTOMER_ID seq_num 购买的商品尺寸

1 17399 1 2 {100,100}

2 17399 2 1 {800}

3 17399 3 2 {900,900}

4 17399 4 1 {405}

5 17399 5 4 {200,505,200,505}

这意味着这个顾客 #17399 多次在这家商店 A 购物。在他/她的第一次购物之旅中，此人购买了商品代码为 100 和 100 的商品（2 件商品）。在他/她的第二次购物之旅中，该客户只购买了商品 800。以此类推。

现在我想在这个客户上使用 cSPADE，订单在“购物篮”中并不重要，但在购物行程中却很重要。所以最终我对客户 17399 的记录是：

CUSTOMER_ID 购买了_items

17399 {(100,100),800,(900,900),405,(200,505,200,505)}

其中 {} 包含完整序列， () 表示每次购物行程。

我总体上理解这是一种可能性。但是，我没有看到任何示例（搜索了几个小时）或明确谈论支持这一点的 arulesSequences 的注释。有什么想法吗？将不胜感激。

谢谢你的时间。

score 3 · Accepted Answer

经过几个小时的学习，我将添加我找到的答案，以防它对其他人有用。

答案是肯定的 - 该软件包确实支持跨篮子的重复项目。事实上，本网站上的示例：https ://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Sequence_Mining/SPADE显示了这种情况。虽然在此示例中没有两个序列号（属于同一事务）相同，但存在重叠元素。即使它们是相同的（我使用了示例输入 .txt ），当您使用 read_basket 和 cSPADE 时也没有错误，这是我试图应用的。

网上有很多例子都是先验的，不允许在篮子中重复项目。这会引起很多混乱。上面粘贴的示例是一个很好的示例，它显示了 cSPADE 的使用。希望这对那里的人有所帮助。

r - R 中的 Apriori，arulesSequences：它是否支持“篮子”序列（单次购物行程中的订单无关紧要）？

1 回答 1

Related

Reference