1

我是 Apache Mahout 的新手。我想了解为 Java 中的并行频繁模式挖掘(来自 Apache Mahout)提供的方法 generateTopKFrequentPatterns()。

该算法的命令行版本提供了两种运行模式,sequential 和 mapreduce。java方法总是在mapreduce上运行吗?还是因为我们使用了 mapreduce 库提供的 outputcollector?

如何使用 API 以分布式方式在多个 hadoop 集群上运行该算法?

方法定义如下:

    generateTopKFrequentPatterns(Iterator<Pair<List<A>,Long>> transactionStream,
                                           Collection<Pair<A,Long>> frequencyList,
                                           long minSupport,
                                           int k,
                                           Collection<A> returnableFeatures,
                                           org.apache.hadoop.mapred.OutputCollector<A,List<Pair<List<A>,Long>>> output,
                                           StatusUpdater updater)
                                    throws IOException

对此的任何帮助将不胜感激。

问候, psun

4

0 回答 0