0

我已经使用了 reuters 21578 数据集的一部分和 mahout k-means 进行聚类。更具体地说,我只提取了对“主题”类别具有唯一值的文本。所以我留下了 9494 个属于一个的文本在 66 个类别中。我使用 seqdirectory 从文本创建序列文件,然后使用 seq2sparse 来创建向量。然后我用余弦距离测量运行 k-means(我也尝试过 tanimoto 和 euclidean,但没有更好的运气),cd=0.1 和 k=66(与类别数相同)。因此,我尝试使用自定义 Java 代码和剪影的 matlab 实现(只是为了确保我的代码中没有错误)使用剪影测量来评估结果,我得到聚类的平均剪影是0.0405. 知道最好的聚类可以给出接近 1 的平均轮廓值,我发现我得到的聚类结果一点都不好。那么这是因为 Mahout 还是路透社数据集上的分类质量低?

PS:我正在使用 Mahout 0.7

PS2:对不起我的英语不好..

4

1 回答 1

0

我从来没有真正使用过 Mahout,所以我不能说它默认做什么,但你可以考虑检查它默认使用哪种距离度量。例如,如果度量标准是未归一化文档字数的欧几里德距离,您可以预期质量非常差的集群质量,因为文档长度将主导文档之间的任何有意义的比较。另一方面,规范化的余弦距离或 tf-idf 加权字数可以做得更好。

另一件需要关注的事情是 Reuters 21578 中的主题分布。它非常偏向于少数主题,例如“acq”或“earn”,而其他主题仅使用少数几次。这可能很难实现良好的外部聚类指标。

于 2013-02-19T01:08:50.760 回答