我有一个想要聚类的大型数据集。我的试运行集大小是 2,500 个对象;当我在“真正的交易”上运行它时,我将需要处理至少 20k 个对象。
这些对象之间具有余弦相似性。这种余弦相似度不满足作为数学距离度量的要求;它不满足三角不等式。
我想以某种“自然”的方式对它们进行聚类,将相似的对象放在一起,而无需事先指定我期望的聚类数量。
有谁知道可以做到这一点的算法?真的,我只是在寻找不需要 a) 距离度量和 b) 预先指定数量的集群的任何算法。
非常感谢!
这个问题之前在这里被问过: Clustering from the cosinesimilarity values (但这个解决方案只提供 K-means 聚类),在这里: Effective clustering of asimilarity matrix (但这个解决方案相当模糊)