我是 Apache Mahout 的新手。我想了解为 Java 中的并行频繁模式挖掘(来自 Apache Mahout)提供的方法 generateTopKFrequentPatterns()。
该算法的命令行版本提供了两种运行模式,sequential 和 mapreduce。java方法总是在mapreduce上运行吗?还是因为我们使用了 mapreduce 库提供的 outputcollector?
如何使用 API 以分布式方式在多个 hadoop 集群上运行该算法?
方法定义如下:
generateTopKFrequentPatterns(Iterator<Pair<List<A>,Long>> transactionStream,
Collection<Pair<A,Long>> frequencyList,
long minSupport,
int k,
Collection<A> returnableFeatures,
org.apache.hadoop.mapred.OutputCollector<A,List<Pair<List<A>,Long>>> output,
StatusUpdater updater)
throws IOException
对此的任何帮助将不胜感激。
问候, psun