0

我正在使用 Indri 和 TrecEval,我想知道我们是否可以使用 F-measure、precision、recall 和排名检索结果。

如果是,那么 F-measure... 将意味着什么?这些值是否相关,例如评估查询是否接近语料库?

我知道 MAP 值用于评估排名结果。但我想知道 F-measure... 是否对其他东西有用。我在这里很困惑,我进行了研究,但有些东西我没有得到。

谢谢你的帮助。

4

1 回答 1

0

Precision、Recall 和 F1 是基于集合的度量。这意味着他们对一组文档进行评分,而不是排名。

我们通常在固定数量的顶级文档上评估此类度量:5,10,20,50,100,500,1000。然后我们可以绘制一条曲线,它以某种方式向我们展示了整个排名。

或者您将在 20 处讨论精度/召回率,例如在大多数接口结果的前两页中。F1 在 IR 上的使用并不多,因为我们的排名衡量标准无论如何都会平衡这些(AP、NDCG 等)。

F1@20 将根据您的排名为您提供一个代表最佳 10 个文档中召回率和精度的几何平均值的数字。

于 2018-03-18T11:16:47.720 回答