我真的很困惑如何在集群应用程序中计算精度和召回率。
我有以下情况:
给定两个集合 A 和 B。通过为每个元素使用唯一键,我可以确定 A 和 B 的哪些元素匹配。我想根据功能对这些元素进行聚类(当然不使用唯一键)。
我正在做聚类,但我不确定如何计算精度和召回率。根据论文“Extended Performance Graphs for Cluster Retrieval”(http://staff.science.uva.nl/~nicu/publications/CVPR01_nies.pdf),公式为:
p = 精度 = 相关检索项目/检索项目和 r = 召回 = 相关检索项目/相关项目
我真的不知道哪些元素属于哪个类别。
到目前为止,我所做的是,我在集群中检查了我有多少匹配对(使用唯一键)。这已经是精确度或召回率之一了吗?如果是这样,它是哪一个,我如何计算另一个?
更新:我刚刚在http://mtg.upf.edu/files/publications/unsuperf.pdf找到另一篇题为“An F-Measure for Evaluation of Unsupervised Clustering with Non-Determined Number of Clusters”的论文。