text - K-means 文本文档聚类。如何计算内部和内部相似度？

Question

我对数千个文档进行分类，其中根据 tf-idf 计算向量分量。我使用余弦相似度。我对集群中的单词进行了频率分析，以检查热门单词的差异。但我不确定如何在此类文档中以数字方式计算相似度。

我将集群的内部相似度计算为每个文档与集群质心的相似度的平均值。如果我计算平均一对夫妇是基于少数。

外部相似度计算为所有对簇质心的平均相似度

我数对了吗？它基于我的内部相似度平均值从 0.2（5 个集群和 2000 个文档）到 0.35（20 个集群和 2000 个文档）。这可能是由计算机科学中面向广泛的文档引起的。从 0.3-0.7 的内部。结果可能是这样的？在互联网上我找到了各种测量方法，不知道使用哪一种而不是我的想法。我很绝望。

非常感谢您的建议！

score 1 · Accepted Answer

将 k-means 用于除平方欧几里得之外的任何东西都是有风险的。它可能会停止收敛，因为收敛证明依赖于优化相同标准的均值和距离分配。K-means 最小化平方偏差，而不是距离！

对于可以处理任意距离函数（并保证收敛）的 k-means 变体，您需要查看k-medoids。

1 回答 1