2

我正在迈出关联规则的第一步。

我找到了这个主题(Apriori 算法的超市数据集)。然后我尝试使用answer2中建议的数据,但是当我看到数据集的解释时,似乎与实际数据没有任何关联。

关于数据集,作者解释说:“数据集中的每条记录都包含有关购买日期(变量'date')、收据编号(变量'receipt nr')的信息……”

在我看到的第一条数据记录中:

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

在第二:

30 31 32

我想这是因为数据集已经“匿名化”了,但是我应该如何将变量“翻译”成数据呢?

4

1 回答 1

1

快速浏览一下,我假设这只是原始数据的一个子集,采用典型的“篮子”格式。每一行都是一个事务,每个数字是一个项目。

不,如果没有额外的数据源,您将无法分辨这些是哪些项目。

因此,它主要用于测试您的算法是否在真实数据上返回某些内容,但您不会真正知道发现了什么。

您可能想查看supermarket.arffIIRC 与 Weka 一起提供的文件。它至少标有一些产品类别(例如“冷冻食品”)。

于 2013-05-23T09:17:30.237 回答