cluster-analysis - ELKI - 聚类统计

Question

当通过 ELKI 0.5 中的聚类算法分析数据集时，程序会生成许多统计数据：Jaccard 指数、F1-Measures 等。为了计算这些统计数据，必须有 2 个聚类进行比较。该算法创建的聚类与什么相比？

score 1 · Accepted Answer

自动评估（请注意，您可以手动配置评估！）基于数据集中的标签。至少在当前版本中（你为什么使用 0.5 而不是 0.6.0？）它应该只自动评估它是否在数据集中找到标签。

我们目前尚未公布内部措施。有一些实现，例如evaluation/clustering/internal/EvaluateSilhouette.java，其中一些将在下一个版本中发布。

在我的实验中，内部评估措施具有严重的误导性。例如，在剪影系数上，标记的“解决方案”通常甚至会得分为负的剪影系数（即比根本不聚类更糟糕）。

此外，这些措施不可扩展。轮廓系数在 O(n^2) 中计算；这通常使这种评估比实际聚类更昂贵！

我们非常感谢您的贡献！

非常欢迎您将您最喜欢的评估措施贡献给 ELKI，与他人分享。