apache - mahout PFPGrowth 算法的错误输出？

Question

我在 hadoop 集群上使用 mahout 的 PFP Growth 实现的最新主干版本来确定 movielens 数据集中的频繁模式。在上一步中，我将数据集转换为交易列表，因为 pfp 增长算法需要该输入格式。

但是，我得到的输出是出乎意料的

例如，对于项目 1017，唯一的频繁模式是

1017 ([100,1017, 50])

我还期望在该行中出现像 ([1017], X) 这样的模式，其中 X >= 50。

我还测试了一个示例输入

1,2,3

1,2,3

1,3

我得到的输出是

1 ([1, 3],3), ([1],3), ([1, 3, 2],2)

2 ([1, 3, 2],2)

3 ([1, 3],3), ([1, 3, 2],2)

缺少像 ([1,2],2) 这样的模式

怎么了？

score 1 · Accepted Answer

原因是 FP 算法在其支持度不高的情况下不会输出频繁模式的子集。它在这里描述： http ://www.searchworkings.org/forum/-/message_boards/view_message/396093

我需要重写代码以供我使用。

score 0 · Accepted Answer

我阅读了论文和代码，似乎 PFP 算法根本不正确。我想知道为什么没有人没有意识到这一点。

如果您已经了解 FP-Growth 并且只需要几个小时来阅读本文和代码，那就很明显了。

2 回答 2