我有兴趣在距离度量为 Leveshtein 的单词列表上执行 kmeans 聚类。
1)我知道那里有很多框架,包括 scipy 和 orange 有一个 kmeans 实现。然而,它们都需要某种向量作为不适合我的数据。
2)我需要一个好的集群实现。我查看了 python-clustering 并意识到它没有 a) 返回到每个质心的所有距离的总和,并且 b) 它没有任何类型的迭代限制或截断,以确保聚类的质量。python-clustering 和 daniweb 上的聚类算法并不适合我。
有人能帮我找到一个好的库吗?谷歌不是我的朋友