machine-learning - 寻找聚类算法的准确性

Question

给定算法的真实聚类和预测聚类，如何找到聚类算法的准确性？

我在网上搜索但找不到任何有用的来源。我知道如何计算分类算法的准确性。

score 8 · Accepted Answer

基于配对计数的索引（F-Measure、Rand 等）似乎是最受欢迎的。它们很容易计算；实际上比某些集合匹配度量更容易（找到最佳 1:1 对齐的匈牙利算法O(n^3)在簇。）O(n^2)n

你可以找到一个新的视觉实验（但根据我的经验，它对真实数据没有那么有用，更多的是为了理解两种算法在 2d 玩具数据上的差异）基于对计数措施（以及十几个外部的实现）措施）在：

阿克特、埃尔克等人。“聚类评估——度量和视觉支持”。数据工程 (ICDE)，2012 年 IEEE 第 28 届国际会议。IEEE，2012。

请注意，将新聚类与“已知”聚类进行比较存在一个大问题：

通过这样做，你实际上惩罚了新的解决方案。

但是在使用聚类分析时，您需要一个新颖的解决方案。如果它只是你已经拥有的标签，你可以使用你已经拥有的标签。事实上，一个好的聚类结果会偏离已知的解决方案，并提供数据的替代视图。

score 0 · Accepted Answer

如果您的聚类受到监督，请使用 ROC 曲线分析聚类质量。

2 回答 2