1

我们正在尝试使用Apache Mahout算法找到频繁模式。fpg首先,我们为原始输入文件(大小为 270 MB)的子集 运行 mahout ,并生成了 、fList和文件/文件夹。然后我们运行完整的文件,该文件大小为 10 GB,具有 268,752 个独特功能和 201590007 行。但是,不会生成文件。它生成,和文件。日志中没有异常。作业状态为“成功”。fpgrowthparallelcountingfrequentPatternsMahout fpgfrequentPatternsfListfpgrowthParallelcounting

根据我的理解,Mahout FPG程序序列是三个 map reduce 程序(ParallelCounting, FPGrowth, Aggregator)。出于某种原因,当我在我们的完整文件上运行这个程序时,它没有启动Aggregator,它应该生成FrequentPatterns文件。我添加了一些记录器来查看发生了什么,重新生成了 jar 文件,并mahout在我们的完整文件上重新运行。startParallelFPGrowth()不打印后没有异常和日志。

我们在三节点 hadoop 集群上使用以下配置。

 mahout fpg -i mahoutFPGInput/mahoutFPGOnlineInput.dat -o fpgOutput -k 100 -s 100 -g 20000 -tc 10 -method mapreduce

有没有人遇到过类似的问题?

4

0 回答 0