0

我一直在尝试评估一种聚类技术。我知道 F1 分数是做到这一点的有效方法之一。根据我通过的链接

F1 Score = 2 * (Precision * Recall) / (Precision + Recall)

基本上是精度和召回率的调和平均值。我也知道了什么是精确度和召回率。还有那个

真阳性 = 正确识别

误报 = 错误识别

真阴性 = 正确拒绝

假阴性 = 错误拒绝

但我的问题是我无法将其与集群联系起来。例如,如果我有以下情况

Training Data = {(lat1,long1),(lat2,long2),(lat3,long3),(lat4,long4),(lat5,long5),(lat6,long6),(lat7,long7)}

我的聚类结果是

Cluster1 = {lat1,long1),(lat2,long2),(lat3,long3)},

Cluster2 = {lat4,long4),(lat5,long5)}

Noise =  {(lat6,long6),(lat7,long7)}

在这种情况下,如何使用我的测试数据找到真阳性等?我在分类的情况下理解它,但在这种情况下我无法弄清楚,因为没有上课。

更新:

我的场景中没有分类指标。由于我使用的是位置数据,所以我可以从形成的集群中找到可能的结果是

Distance between two positions
Midpoint of the cluster

我可以使用以下内部评估措施

Davies–Bouldin index https://en.wikipedia.org/wiki/Davies%E2%80%93Bouldin_index
Dunn index https://en.wikipedia.org/wiki/Dunn_index
Silhouette coefficient https://en.wikipedia.org/wiki/Silhouette_(clustering)

但我想进一步研究这方面的真正聚类。我知道真正的集群是手动创建集群并进一步评估集群。我想知道他们是如何评价的?我找不到任何与之相关的文章或论文。

4

1 回答 1

0

精度和召回率是分类指标,不适合按原样进行聚类验证。

此外,您需要一个真正的聚类来进行比较。分类数据可能不足以用于此目的,因为类可能包含多个集群,或者类可能会自行集群。

有关聚类的评估,请参阅文献。这是一个太宽泛的话题,无法在这里涵盖,涉及许多研究论文。首先,请查看调整后的兰特指数ARI。这似乎是集群最流行的评估指标(外部;即,如果你有一个基本事实)。

于 2015-04-08T16:39:33.370 回答