我尝试按照许多在线教程来运行 Mahout 中的 kmeans 示例。但尚未成功获得有意义的输出。我面临的主要问题是,从文本文件到序列文件的转换并返回。
当我按照“Mahout Wiki”的“合成控制数据聚类”的步骤(https://cwiki.apache.org/MAHOUT/clustering-of-synthetic-control-data.html)我可以运行聚类过程(使用 $MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job) 并创建了一些可读的控制台输出。但我希望从聚类过程中获取输出文件(因为大小很大)。Mahout 聚类生成的输出文件都是序列文件,我无法将它们转换为可读文件。当我尝试执行“clusterdump”($MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-10...)时出现错误。首先它抱怨“seqFileDir”选项出乎意料,我猜集群转储没有“seqFileDir”或者我遗漏了一些东西。
尝试以“mahout in action”的方式使用 Mahout 似乎很棘手。我不确定编译该代码所需的类(“import ??”)是什么。
您能否建议我在 Mahout 上成功运行 kmeans 的步骤?特别是如何从序列文件中获得可读的输出?