ranking - 两阶段文档检索中的排序评价方法

Question

我创建了一个基于查询-文档对之间的文本相似度（余弦相似度）的两阶段排名系统。现在我需要验证我的排名系统，对于用户而言，检索到的适当排名的项目是否正确，我应该选择哪种方法。我阅读了 Pointwise/Pairwise/Listwise 方法来验证排名，但对于排名系统的手动评估，这会更有帮助。如果有人可以为排名评估方法提供更好的策略，那对我将非常有帮助。谢谢

score 0 · Accepted Answer

如果我正确地回答了这个问题，那么您正在寻找一种评估方法来确定您的两阶段检索系统是否运作良好。如果这是真的，您可以使用以下评估方法之一：

相关性判断：您可以使用具有数百个查询和显式相关性判断的类 TREC 集合，并使用 IR 评估指标（如 MAP、P@10、NDCG 等）来评估您的模型。
A/B测试：其实你可以通过你的检索系统的第二阶段展示初始结果和重新排序的结果，让用户判断重新排序的结果是否更好。
点击数据：如果您可以访问搜索引擎日志，您可以使用用户的点击信息来评估您的模型。为此，您应该注意几个偏差问题，例如位置偏差问题。

在上述策略中，第一个应该更容易且更便宜。您只需要访问 TREC 数据，这不是私人的（但您需要支付几百美元才能访问其中的大部分）。

ranking - 两阶段文档检索中的排序评价方法

1 回答 1

Related

Reference