information-retrieval - IR 计算不同相关文档的平均精度以排名 K

Question

上图显示了文档检索设置中精度和召回率的标准示例。

要计算排名 1 的平均精度，您只需执行以下操作：

(1.0 + 0.67 + 0.75 + 0.8 + 0.83 + 0.6) / 6 = 0.78

上面的示例非常适合小型文档集合，但假设您有一个包含 100,000 个文档的搜索引擎，而一个查询可能包含 100 个相关文档。如果将 K 的长度保持在 10，将如何调整上述内容？

一个例子：

已确定 Ranking #1 的查询有 20 个相关文档，以上是否变为：

(1.0 + 0.67 + 0.75 + 0.8 + 0.83 + 0.6) / 20 = 0.23

还是您仍然除以 6，因为那是长度为 K 的等级内的相关文档的数量？

score 1 · Accepted Answer

你除以相关的总数|R| 即使它大于您的截止值，K。

这看起来有点傻，但是想象一下您的系统只返回了 10 个文档，而不是您选择在那个时候切断排名。与检索更多文档的系统相比，美联社希望“惩罚”这个系统。

在传统的IR评估中，计算AP时设置K=1000，通常|R| 小于1000。在您列出的作业/教科书示例中，目标是手动计算，因此它们的K非常小，但在计算机化评估中，您希望K尽可能大。

还有其他排名度量在所有情况下都不存在最大值不为 1 的“问题”，即NDCG@K，它与 AP 非常相似，只是它专门被归一化，即它总是会输出1 表示 K 的最佳排名，0 表示最差排名。这种对最佳可能排名的标准化比 MAP 的召回点更能直观地向人们解释，但这些测量在现实生活中高度相关。

1 回答 1