mahout - 如何读取 Mahout 聚类输出

Question

我已经对 Mahout 教程中的合成控制数据运行了 k-Means 聚类算法，并且想知道是否有人可以解释如何解释输出。我运行了 clusterdump 并收到了如下所示的输出（截断以节省空间）：

CL-592{n=57 c=30.726, 29.813...] r=[3.528, 3.597...]}
Weight : [props - optional]: Point:
1.0 : [distance=27.453962995925863]: [24.672, 35.261, 30.486...]
1.0 : [distance=27.675053294846002]: [25.592, 29.951, 34.188...]
1.0 : [distance=28.97727289419493]: [30.696, 32.667, 34.223...]
1.0 : [distance=21.999685652862784]: [32.702, 35.219, 30.143...]
...
CL-598{n=50 c=[29.611, 29.769...] r=[3.166, 3.561...]}
Weight : [props - optional]:  Point:
1.0 : [distance=27.266203490250472]: [27.679, 33.506, 23.594...]
1.0 : [distance=28.749781351838173]: [34.727, 28.325, 30.331...]
1.0 : [distance=32.635136046420186]: [27.758, 33.859, 29.879...]
1.0 : [distance=29.328974057024624]: [29.356, 26.793, 25.575...]

有人可以向我解释如何阅读这个吗？据我了解，CL-__是一个簇ID，后跟n=簇中的点数，c=centroid作为向量，r=radius作为向量，然后是簇中的每个点。它是否正确？此外，我如何知道哪个聚类点与哪个输入点匹配？即点是否被描述为键值对，其中键是点的某种ID，值是向量？如果没有，有什么方法可以设置它吗？

score 7 · Accepted Answer

我相信您对数据的解释是正确的（我只与 Mahout 合作了约 3 周，因此可能应该有经验更丰富的人对此进行权衡）。

至于将点链接回创建它们的输入，我使用过NamedVector，其中名称是向量的键。当您读取其中一个生成的点文件 ( clusteredPoints) 时，您可以将每一行（点向量）转换回 aNamedVector并使用.getName().

更新以回应评论

最初将数据读入 Mahout 时，会将其转换为向量集合，然后将其写入文件 ( points) 以供稍后在聚类算法中使用。Mahout 为您提供了几种Vector可以使用的类型，但它们也让您可以访问一个Vector名为的包装类，该类NamedVector允许您识别每个向量。

例如，您可以NamedVector按如下方式创建每个：

NamedVector nVec = new NamedVector(
    new SequentialAccessSparseVector(vectorDimensions), 
    vectorName
    );

然后你将你的集合写入NamedVectors文件，如下所示：

SequenceFile.Writer writer = new SequenceFile.Writer(...);
VectorWritable writable = new VectorWritable();

// the next two lines will be in a loop, but I'm omitting it for clarity
writable.set(nVec);
writer.append(new Text(nVec.getName()), nVec);

您现在可以将此文件用作其中一种聚类算法的输入。

在使用您的点文件运行其中一种聚类算法后，它将生成另一个点文件，但它将位于名为clusteredPoints.

然后，您可以读取此点文件并提取与每个向量关联的名称。它看起来像这样：

IntWritable clusterId = new IntWritable();
WeightedPropertyVectorWritable vector = new WeightedPropertyVectorWritable();

while (reader.next(clusterId, vector))
{
    NamedVector nVec = (NamedVector)vector.getVector();
    // you now have access to the original name using nVec.getName()
}

score 0 · Accepted Answer

尝试在 clusterdump 中添加选项 -of CSV，您将获得更可利用的结果以进行进一步处理。

score -1 · Accepted Answer

我有同样的问题，（使用mahout 0.6）。我也是初学者。我需要以集群的形式向用户显示文档。所以我需要文档名称而不是与集群对应的单词。我一直在从 shell 脚本中对文本文档进行聚类。

mahout - 如何读取 Mahout 聚类输出

3 回答 3

Related

Reference