mahout - 在 Reuters 21578 数据集上使用 mahout 的错误聚类结果

Question

我已经使用了 reuters 21578 数据集的一部分和 mahout k-means 进行聚类。更具体地说，我只提取了对“主题”类别具有唯一值的文本。所以我留下了 9494 个属于一个的文本在 66 个类别中。我使用 seqdirectory 从文本创建序列文件，然后使用 seq2sparse 来创建向量。然后我用余弦距离测量运行 k-means（我也尝试过 tanimoto 和 euclidean，但没有更好的运气），cd=0.1 和 k=66（与类别数相同）。因此，我尝试使用自定义 Java 代码和剪影的 matlab 实现（只是为了确保我的代码中没有错误）使用剪影测量来评估结果，我得到聚类的平均剪影是0.0405. 知道最好的聚类可以给出接近 1 的平均轮廓值，我发现我得到的聚类结果一点都不好。那么这是因为 Mahout 还是路透社数据集上的分类质量低？

PS：我正在使用 Mahout 0.7

PS2：对不起我的英语不好..

score 0 · Accepted Answer

我从来没有真正使用过 Mahout，所以我不能说它默认做什么，但你可以考虑检查它默认使用哪种距离度量。例如，如果度量标准是未归一化文档字数的欧几里德距离，您可以预期质量非常差的集群质量，因为文档长度将主导文档之间的任何有意义的比较。另一方面，规范化的余弦距离或 tf-idf 加权字数可以做得更好。

另一件需要关注的事情是 Reuters 21578 中的主题分布。它非常偏向于少数主题，例如“acq”或“earn”，而其他主题仅使用少数几次。这可能很难实现良好的外部聚类指标。

mahout - 在 Reuters 21578 数据集上使用 mahout 的错误聚类结果

1 回答 1

Related

Reference