我一直在尝试评估一种聚类技术。我知道 F1 分数是做到这一点的有效方法之一。根据我通过的链接
F1 Score = 2 * (Precision * Recall) / (Precision + Recall)
基本上是精度和召回率的调和平均值。我也知道了什么是精确度和召回率。还有那个
真阳性 = 正确识别
误报 = 错误识别
真阴性 = 正确拒绝
假阴性 = 错误拒绝
但我的问题是我无法将其与集群联系起来。例如,如果我有以下情况
Training Data = {(lat1,long1),(lat2,long2),(lat3,long3),(lat4,long4),(lat5,long5),(lat6,long6),(lat7,long7)}
我的聚类结果是
Cluster1 = {lat1,long1),(lat2,long2),(lat3,long3)},
Cluster2 = {lat4,long4),(lat5,long5)}
Noise = {(lat6,long6),(lat7,long7)}
在这种情况下,如何使用我的测试数据找到真阳性等?我在分类的情况下理解它,但在这种情况下我无法弄清楚,因为没有上课。
更新:
我的场景中没有分类指标。由于我使用的是位置数据,所以我可以从形成的集群中找到可能的结果是
Distance between two positions
Midpoint of the cluster
我可以使用以下内部评估措施
Davies–Bouldin index https://en.wikipedia.org/wiki/Davies%E2%80%93Bouldin_index
Dunn index https://en.wikipedia.org/wiki/Dunn_index
Silhouette coefficient https://en.wikipedia.org/wiki/Silhouette_(clustering)
但我想进一步研究这方面的真正聚类。我知道真正的集群是手动创建集群并进一步评估集群。我想知道他们是如何评价的?我找不到任何与之相关的文章或论文。