我已经使用了 reuters 21578 数据集的一部分和 mahout k-means 进行聚类。更具体地说,我只提取了对“主题”类别具有唯一值的文本。所以我留下了 9494 个属于一个的文本在 66 个类别中。我使用 seqdirectory 从文本创建序列文件,然后使用 seq2sparse 来创建向量。然后我用余弦距离测量运行 k-means(我也尝试过 tanimoto 和 euclidean,但没有更好的运气),cd=0.1 和 k=66(与类别数相同)。因此,我尝试使用自定义 Java 代码和剪影的 matlab 实现(只是为了确保我的代码中没有错误)使用剪影测量来评估结果,我得到聚类的平均剪影是0.0405. 知道最好的聚类可以给出接近 1 的平均轮廓值,我发现我得到的聚类结果一点都不好。那么这是因为 Mahout 还是路透社数据集上的分类质量低?
PS:我正在使用 Mahout 0.7
PS2:对不起我的英语不好..