apache - 每个 Mahout 集群中的向量

Question

我是 Apache Mahout 新手。我试图了解我的哪些命名向量属于哪个集群。互联网上的很多资源都是关于文本文档并使用命令 clusterdump。但是，我的数据集非常庞大，运行该命令总是会导致 Java Out Of Memory 异常。此外，我认为使用 clusterdump 不会回答我的问题。

我想知道是否有可能只了解哪些命名向量属于使用目录的哪些集群clusteredPoints，clusters-[0-9]+以及clusters-*-final

如果有帮助的话，到目前为止，我已经根据他们的听歌习惯形成了用户群。为此，我最初使用 NamedVectors 创建了一个序列文件，其中 NamedVector 的名称是 userId，而 Vector 本身是一个双精度数组，其中包含用户收听的歌曲标签的权重（示例如下）。

    AR2TSU61187FB5C4F0 0.5 0.2 0.7 0.0 0.0 0.1 0.0 0.0 ...
    ...
    ...
    ...

然后我成功地运行了 k-means。我在 clusteredPoints 目录中有输出（大约 88 个文件，名称如 part-m-00088）和我认为包含质心的目录簇。

谢谢你的帮助！

score 0 · Accepted Answer

我认为你需要对 clusterdump 做一些研究，试试 mahout clusterdump --help try this

mahout clusterdump -i clusters-*-final/part-r-00000 -o output -p clusteredPoints/part-m-00000

并尝试此链接以获得进一步的解释。

您也可以尝试添加选项 -of CSV，您将看到如下显示：

id_cluster1,vec1,vec2..vecl
id_cluster2,vec1,vec2..vecl
...

apache - 每个 Mahout 集群中的向量

1 回答 1

Related

Reference