0

当通过 ELKI 0.5 中的聚类算法分析数据集时,程序会生成许多统计数据:Jaccard 指数、F1-Measures 等。为了计算这些统计数据,必须有 2 个聚类进行比较。该算法创建的聚类与什么相比?

4

1 回答 1

1

自动评估(请注意,您可以手动配置评估!)基于数据集中的标签。至少在当前版本中(你为什么使用 0.5 而不是 0.6.0?)它应该只自动评估它是否在数据集中找到标签。

我们目前尚未公布内部措施。有一些实现,例如evaluation/clustering/internal/EvaluateSilhouette.java,其中一些将在下一个版本中发布。

在我的实验中,内部评估措施具有严重的误导性。例如,在剪影系数上,标记的“解决方案”通常甚至会得分为负的剪影系数(即比根本不聚类更糟糕)。

此外,这些措施不可扩展。轮廓系数在 O(n^2) 中计算;这通常使这种评估比实际聚类更昂贵!

我们非常感谢您的贡献!

非常欢迎您将您最喜欢的评估措施贡献给 ELKI,与他人分享。

于 2014-04-07T08:47:26.663 回答