我阅读了有关球形kmeans的信息,但没有遇到实现。要清楚,相似性很简单,是两个文档单位向量的点积。我读过标准k均值使用距离作为度量。距离被指定为矢量距离,就像在坐标几何 sqrt((x2 -x1)^2 + (y2-y1)^2) 中一样?
问问题
321 次
1 回答
1
有比 k-means 更多的聚类方法。k-means 的问题与其说是建立在欧几里得距离上,不如说是平均值必须减少算法收敛的距离。
但是,还有许多其他聚类算法不需要计算均值或三角不等式。如果您阅读有关 DBSCAN 的 Wikipedia 文章,它还提到了一个名为 GDBSCAN,Generalized DBSCAN 的版本。您绝对应该能够将相似函数插入 GDBSCAN。最有可能的是,您可以只使用 1/similarity 并将其用作距离函数,除非该算法需要三角不等式。所以这个技巧应该适用于 DBSCAN 和 OPTICS,例如。可能还有层次聚类、k-median 和 k-medoids (PAM)。
于 2012-07-19T06:43:28.980 回答