我们正在尝试使用Apache Mahout
算法找到频繁模式。fpg
首先,我们为原始输入文件(大小为 270 MB)的子集 运行 mahout ,并生成了 、fList
和文件/文件夹。然后我们运行完整的文件,该文件大小为 10 GB,具有 268,752 个独特功能和 201590007 行。但是,不会生成文件。它生成,和文件。日志中没有异常。作业状态为“成功”。fpgrowth
parallelcounting
frequentPatterns
Mahout
fpg
frequentPatterns
fList
fpgrowth
Parallelcounting
根据我的理解,Mahout FPG
程序序列是三个 map reduce 程序(ParallelCounting
, FPGrowth
, Aggregator
)。出于某种原因,当我在我们的完整文件上运行这个程序时,它没有启动Aggregator
,它应该生成FrequentPatterns
文件。我添加了一些记录器来查看发生了什么,重新生成了 jar 文件,并mahout
在我们的完整文件上重新运行。startParallelFPGrowth()
不打印后没有异常和日志。
我们在三节点 hadoop 集群上使用以下配置。
mahout fpg -i mahoutFPGInput/mahoutFPGOnlineInput.dat -o fpgOutput -k 100 -s 100 -g 20000 -tc 10 -method mapreduce
有没有人遇到过类似的问题?