3

我正在使用 Weka 尝试不同的聚类算法。当我尝试使用欧几里德距离的 SimpleKMeans 算法时,我得到的错误分类实例较少,然后当我尝试使用曼哈顿距离时,我得到更多错误分类的实例。文本聚类的最佳距离度量是什么,为什么?为什么我得到非常不同的结果?我正在使用类来集群评估集群模式。

4

1 回答 1

3

假设使用 Bag of Words 方法,Manhattan 距离更适合文档比较(虽然余弦距离通常是最好的方法),但 K-Means 是一种梯度下降算法,它假设成本函数是可微的,即欧几里得距离是这种情况,但曼哈顿距离一般不是这样。因此,即使欧几里得度量不是最好的比较,K-Means 可能会收敛到一个更好的解决方案,欧几里得距离比曼哈顿距离更好。

于 2013-10-12T18:27:42.813 回答