我正在对数据进行聚类(尝试多种算法)并尝试评估每种算法生成的聚类的一致性/完整性。我没有任何基本事实标签,这排除了很多用于分析性能的指标。
到目前为止,我一直在使用 Silhouette score 和 calinski harabaz score(来自 sklearn)。然而,有了这些分数,如果我的算法产生的标签建议至少有 2 个集群,我只能比较集群的完整性——但我的一些算法建议一个集群是最可靠的。
因此,如果您没有任何真实标签,您如何评估算法提出的聚类是否比所有数据仅分配在一个聚类中更好?