我在 hadoop 集群上使用 mahout 的 PFP Growth 实现的最新主干版本来确定 movielens 数据集中的频繁模式。在上一步中,我将数据集转换为交易列表,因为 pfp 增长算法需要该输入格式。
但是,我得到的输出是出乎意料的
例如,对于项目 1017,唯一的频繁模式是
1017 ([100,1017, 50])
我还期望在该行中出现像 ([1017], X) 这样的模式,其中 X >= 50。
我还测试了一个示例输入
1,2,3
1,2,3
1,3
我得到的输出是
1 ([1, 3],3), ([1],3), ([1, 3, 2],2)
2 ([1, 3, 2],2)
3 ([1, 3],3), ([1, 3, 2],2)
缺少像 ([1,2],2) 这样的模式
怎么了?