1

我正在对数据进行聚类(尝试多种算法)并尝试评估每种算法生成的聚类的一致性/完整性。我没有任何基本事实标签,这排除了很多用于分析性能的指标。

到目前为止,我一直在使用 Silhouette score 和 calinski harabaz score(来自 sklearn)。然而,有了这些分数,如果我的算法产生的标签建议至少有 2 个集群,我只能比较集群的完整性——但我的一些算法建议一个集群是最可靠的。

因此,如果您没有任何真实标签,您如何评估算法提出的聚类是否比所有数据仅分配在一个聚类中更好?

4

2 回答 2

0

如果您正在寻找更多无监督的聚类指标,除了您提到的指标(为了更确定您的发现),可以尝试以下指标:

于 2018-07-15T21:18:43.923 回答
0

不要仅仅依靠一些启发式方法,有人提出了一个非常不同的问题。

聚类的关键是仔细考虑您正在处理的问题。提出数据的正确方法是什么?如何缩放(或不缩放)?如何以量化对您的领域有意义的事物的方式来衡量两条记录的相似性。

这与选择正确的算法无关。你的任务是做数学,将你的领域问题与算法的作用联系起来。不要把它当作一个黑匣子。根据评估步骤选择方法是行不通的:已经太晚了;您可能已经在预处理中做出了一些错误的决定,使用了错误的距离、缩放比例和其他参数。

于 2018-07-15T07:58:28.267 回答