data-mining - Weka Apriori 算法

Question

我想使用 Apriori 对交易数据进行亲和力分析。我有一张包含订单列表及其信息的表格。我主要需要使用 OrderID 和 ProductID 属性，格式如下

OrderID 产品ID
1 A
1 B
1 C
2 A
2 C
3 A

Weka 要求您为每个产品 ID 创建一个名义属性，并使用如下所示的 true 或 false 值指定该项目是否存在于订单中：

1，真，真，真
2，真，假，真
3，真，假，假

我的数据集包含大约 10k 条记录……大约 3k 种不同的产品。谁能建议一种以这种格式创建数据集的方法？（除了手动耗时的方式......）

score 0 · Accepted Answer

您的数据按原样正确格式化，以便使用 ARULES 包（和 apriori 函数）在 R 中实现。你可以考虑检查一下，特别是。如果您无法进入脚本编码。

score 0 · Accepted Answer

写一个脚本来转换它怎么样？

在 Python 等良好的脚本语言中应该少于 10 行。

或者，您可以查看根据需要旋转关系的选项。

无论哪种方式，这都是一项直接的编程任务，所以我在这里看不到您的问题。

score 0 · Accepted Answer

您显然需要转换数据。最简单的方法：编写一个软件，以您最熟悉的编程语言读取文件，然后以适当的格式编写文件。既然是文本文件，应该不会太复杂。

顺便说一句，如果您想要更多的模式挖掘和关联挖掘算法，而不仅仅是 Weka 中的 Apriori，您可以查看我的软件 SPMF（http://www.philippe-fournier-viger.com/spmf/），它也是 Java版本，也可以读取 ARFF 文件，并提供大约 50 种专门用于模式挖掘的算法（Apriori FPGrowth 等。

data-mining - Weka Apriori 算法

3 回答 3

Related

Reference