0

召回率和精度示例

上图显示了文档检索设置中精度和召回率的标准示例。

要计算排名 1 的平均精度,您只需执行以下操作:

(1.0 + 0.67 + 0.75 + 0.8 + 0.83 + 0.6) / 6 = 0.78

上面的示例非常适合小型文档集合,但假设您有一个包含 100,000 个文档的搜索引擎,而一个查询可能包含 100 个相关文档。如果将 K 的长度保持在 10,将如何调整上述内容?

一个例子:

已确定 Ranking #1 的查询有 20 个相关文档,以上是否变为:

(1.0 + 0.67 + 0.75 + 0.8 + 0.83 + 0.6) / 20 = 0.23

还是您仍然除以 6,因为那是长度为 K 的等级内的相关文档的数量?

4

1 回答 1

1

你除以相关的总数|R| 即使它大于您的截止值,K。

这看起来有点傻,但是想象一下您的系统只返回了 10 个文档,而不是您选择在那个时候切断排名。与检索更多文档的系统相比,美联社希望“惩罚”这个系统。

在传统的IR评估中,计算AP时设置K=1000,通常|R| 小于1000。在您列出的作业/教科书示例中,目标是手动计算,因此它们的K非常小,但在计算机化评估中,您希望K尽可能大。

还有其他排名度量在所有情况下都不存在最大值不为 1 的“问题”,即NDCG@K,它与 AP 非常相似,只是它专门被归一化,即它总是会输出1 表示 K 的最佳排名,0 表示最差排名。这种对最佳可能排名的标准化比 MAP 的召回点更能直观地向人们解释,但这些测量在现实生活中高度相关。

于 2018-03-15T13:04:51.170 回答