我正在使用Mahout (v 0.7) 并行 FPG 算法、CLI 模式来生成频繁模式。该算法工作正常并正确生成频繁模式。
我遇到的问题是该算法总是在生成模式的第二阶段使用一个减速器。该算法为每个输入拆分创建一个映射器,但在第二阶段,所有映射器将其输出发送到一个减速器,这大大减慢了算法的速度。
我什至尝试将-Dmapred.reduce.tasks
参数设置为覆盖默认的reducer数量,但它不起作用。
如果可能的话,我想将第二阶段的工作分成多个减速器。
我使用的 Mahout 的 FPG 命令:
mahout fpg \
-i /path/to/input \
-o /path/to/output \
-s 5 \
-k 100 \
-method mapreduce