给定算法的真实聚类和预测聚类,如何找到聚类算法的准确性?
我在网上搜索但找不到任何有用的来源。我知道如何计算分类算法的准确性。
给定算法的真实聚类和预测聚类,如何找到聚类算法的准确性?
我在网上搜索但找不到任何有用的来源。我知道如何计算分类算法的准确性。
存在多种方法,其中一些在维基百科页面“集群分析”的“外部评估”部分中进行了讨论。
基于配对计数的索引(F-Measure、Rand 等)似乎是最受欢迎的。它们很容易计算;实际上比某些集合匹配度量更容易(找到最佳 1:1 对齐的匈牙利算法O(n^3)
在簇。)O(n^2)
n
你可以找到一个新的视觉实验(但根据我的经验,它对真实数据没有那么有用,更多的是为了理解两种算法在 2d 玩具数据上的差异)基于对计数措施(以及十几个外部的实现)措施)在:
阿克特、埃尔克等人。“聚类评估——度量和视觉支持”。数据工程 (ICDE),2012 年 IEEE 第 28 届国际会议。IEEE,2012。
请注意,将新聚类与“已知”聚类进行比较存在一个大问题:
通过这样做,你实际上惩罚了新的解决方案。
但是在使用聚类分析时,您需要一个新颖的解决方案。如果它只是你已经拥有的标签,你可以使用你已经拥有的标签。事实上,一个好的聚类结果会偏离已知的解决方案,并提供数据的替代视图。
如果您的聚类受到监督,请使用 ROC 曲线分析聚类质量。
http://en.wikipedia.org/wiki/Receiver_operating_characteristic