apache - mahout fpg 算法未生成频繁模式文件

翻译自：https://stackoverflow.com/questions/17814869 2013-07-23T15:43:35.857

498 次

我们正在尝试使用Apache Mahout算法找到频繁模式。fpg首先，我们为原始输入文件（大小为 270 MB）的子集运行 mahout ，并生成了、fList和文件/文件夹。然后我们运行完整的文件，该文件大小为 10 GB，具有 268,752 个独特功能和 201590007 行。但是，不会生成文件。它生成,和文件。日志中没有异常。作业状态为“成功”。fpgrowthparallelcountingfrequentPatternsMahout fpgfrequentPatternsfListfpgrowthParallelcounting

根据我的理解，Mahout FPG程序序列是三个 map reduce 程序（ParallelCounting, FPGrowth, Aggregator）。出于某种原因，当我在我们的完整文件上运行这个程序时，它没有启动Aggregator，它应该生成FrequentPatterns文件。我添加了一些记录器来查看发生了什么，重新生成了 jar 文件，并mahout在我们的完整文件上重新运行。startParallelFPGrowth()不打印后没有异常和日志。

我们在三节点 hadoop 集群上使用以下配置。

 mahout fpg -i mahoutFPGInput/mahoutFPGOnlineInput.dat -o fpgOutput -k 100 -s 100 -g 20000 -tc 10 -method mapreduce

有没有人遇到过类似的问题？

apache - mahout fpg 算法未生成频繁模式文件

0 回答 0

Related

Reference