0

我在 hadoop 集群上使用 mahout 的 PFP Growth 实现的最新主干版本来确定 movielens 数据集中的频繁模式。在上一步中,我将数据集转换为交易列表,因为 pfp 增长算法需要该输入格式。

但是,我得到的输出是出乎意料的

例如,对于项目 1017,唯一的频繁模式是

1017 ([100,1017, 50])

我还期望在该行中出现像 ([1017], X) 这样的模式,其中 X >= 50。

我还测试了一个示例输入

1,2,3

1,2,3

1,3

我得到的输出是

1 ([1, 3],3), ([1],3), ([1, 3, 2],2)

2 ([1, 3, 2],2)

3 ([1, 3],3), ([1, 3, 2],2)

缺少像 ([1,2],2) 这样的模式

怎么了?

4

2 回答 2

1

原因是 FP 算法在其支持度不高的情况下不会输出频繁模式的子集。它在这里描述: http ://www.searchworkings.org/forum/-/message_boards/view_message/396093

我需要重写代码以供我使用。

于 2012-05-11T05:47:42.060 回答
0

我阅读了论文和代码,似乎 PFP 算法根本不正确。我想知道为什么没有人没有意识到这一点。

如果您已经了解 FP-Growth 并且只需要几个小时来阅读本文和代码,那就很明显了。

于 2017-09-20T15:17:53.590 回答