java - 如何确定精确和召回计算中的相关组是什么？

Question

一个系统最著名的测量方法之一information retrieval是计算它的precision和recall。对于这两种情况，我们都需要计算相关文档的总数，并将其与系统返回的文档进行比较。我的问题是，我们如何super set在以下情况下找到相关文件：

假设我们有一个学术搜索引擎，它的工作是接受学术论文的全名，并基于一些算法，返回相关论文的列表。在这里，为了判断系统是否具有良好的准确率，我们希望计算其准确率和召回率。但是我们不知道如何生成一组相关论文——搜索引擎应该返回它们，关于不同用户的查询——并相应地计算精度和召回率。

score 0 · Accepted Answer

大多数与系统设计相关的文档集都涉及向用户（真人）展示文档。

非人工评价：

您可能会在您的特定实例中提出“虚假”评估。我希望论文“相关性判断的变化和检索有效性的测量”[1] 中排名最高的论文将是该论文本身。因此，您可以获取数据并创建自动评估。它不会告诉您您的系统是否真的在寻找新事物（您关心的），但它会告诉您您的系统是否糟糕。

例如，如果你在麦当劳，你问地图系统最近的麦当劳在哪里，但它没有找到你所在的那个，你就会知道这是某种系统故障。

进行真正的评估：

您提出一组查询，并为每个查询从您的系统中判断前K个结果。在实践中，您无法查看每个查询的所有数百万篇论文——因此您可以通过您当前知道的召回集来近似召回集。这就是为什么在您正在汇集的系统中具有一些多样性很重要的原因。相关性很棘手；人们对哪些文档与查询相关存在很大分歧。

在您的情况下：人们会不同意哪些论文与另一篇论文相关。但这在很大程度上没关系，因为他们大多会就显而易见的问题达成一致。

如果您要比较系统，则存在分歧是可以的：

只有在比较不同的信息检索系统时，这种范式才有意义。它不能帮助您了解单个系统有多好，但它可以帮助您确定一个系统是否可靠地优于另一个系统 [1]。

[1] Voorhees, Ellen M. “相关性判断的变化和检索有效性的测量”。信息处理与管理 36.5 (2000): 697-716。

1 回答 1