information-retrieval - 我们可以使用 F-measure、precision、recall 和排序的检索结果吗？

Question

我正在使用 Indri 和 TrecEval，我想知道我们是否可以使用 F-measure、precision、recall 和排名检索结果。

如果是，那么 F-measure... 将意味着什么？这些值是否相关，例如评估查询是否接近语料库？

我知道 MAP 值用于评估排名结果。但我想知道 F-measure... 是否对其他东西有用。我在这里很困惑，我进行了研究，但有些东西我没有得到。

谢谢你的帮助。

score 0 · Accepted Answer

Precision、Recall 和 F1 是基于集合的度量。这意味着他们对一组文档进行评分，而不是排名。

我们通常在固定数量的顶级文档上评估此类度量：5,10,20,50,100,500,1000。然后我们可以绘制一条曲线，它以某种方式向我们展示了整个排名。

或者您将在 20 处讨论精度/召回率，例如在大多数接口结果的前两页中。F1 在 IR 上的使用并不多，因为我们的排名衡量标准无论如何都会平衡这些（AP、NDCG 等）。

F1@20 将根据您的排名为您提供一个代表最佳 10 个文档中召回率和精度的几何平均值的数字。

1 回答 1