2

我想使用 Apriori 对交易数据进行亲和力分析。我有一张包含订单列表及其信息的表格。我主要需要使用 OrderID 和 ProductID 属性,格式如下

OrderID 产品ID
1 A
1 B
1 C
2 A
2 C
3 A

Weka 要求您为每个产品 ID 创建一个名义属性,并使用如下所示的 true 或 false 值指定该项目是否存在于订单中:

1,真,真,真
2,真,假,真
3,真,假,假

我的数据集包含大约 10k 条记录……大约 3k 种不同的产品。谁能建议一种以这种格式创建数据集的方法?(除了手动耗时的方式......)

4

3 回答 3

0

您的数据按原样正确格式化,以便使用 ARULES 包(和 apriori 函数)在 R 中实现。你可以考虑检查一下,特别是。如果您无法进入脚本编码。

于 2013-06-10T15:51:14.320 回答
0

写一个脚本来转换它怎么样?

在 Python 等良好的脚本语言中应该少于 10 行。

或者,您可以查看根据需要旋转关系的选项。

无论哪种方式,这都是一项直接的编程任务,所以我在这里看不到您的问题。

于 2013-05-14T21:10:51.103 回答
0

您显然需要转换数据。最简单的方法:编写一个软件,以您最熟悉的编程语言读取文件,然后以适当的格式编写文件。既然是文本文件,应该不会太复杂。

顺便说一句,如果您想要更多的模式挖掘和关联挖掘算法,而不仅仅是 Weka 中的 Apriori,您可以查看我的软件 SPMF(http://www.philippe-fournier-viger.com/spmf/),它也是 Java版本,也可以读取 ARFF 文件,并提供大约 50 种专门用于模式挖掘的算法(Apriori FPGrowth 等。

于 2013-06-06T03:03:35.467 回答