algorithm - 文本聚类的欧几里得与曼哈顿距离

Question

我正在使用 Weka 尝试不同的聚类算法。当我尝试使用欧几里德距离的 SimpleKMeans 算法时，我得到的错误分类实例较少，然后当我尝试使用曼哈顿距离时，我得到更多错误分类的实例。文本聚类的最佳距离度量是什么，为什么？为什么我得到非常不同的结果？我正在使用类来集群评估集群模式。

score 3 · Accepted Answer

假设使用 Bag of Words 方法，Manhattan 距离更适合文档比较（虽然余弦距离通常是最好的方法），但 K-Means 是一种梯度下降算法，它假设成本函数是可微的，即欧几里得距离是这种情况，但曼哈顿距离一般不是这样。因此，即使欧几里得度量不是最好的比较，K-Means 可能会收敛到一个更好的解决方案，欧几里得距离比曼哈顿距离更好。

algorithm - 文本聚类的欧几里得与曼哈顿距离

1 回答 1

Related

Reference