0

一个系统最著名的测量方法之一information retrieval是计算它的precisionrecall。对于这两种情况,我们都需要计算相关文档的总数,并将其与系统返回的文档进行比较。我的问题是,我们如何super set在以下情况下找到相关文件:

假设我们有一个学术搜索引擎,它的工作是接受学术论文的全名,并基于一些算法,返回相关论文的列表。在这里,为了判断系统是否具有良好的准确率,我们希望计算其准确率和召回率。但是我们不知道如何生成一组相关论文——搜索引擎应该返回它们,关于不同用户的查询——并相应地计算精度和召回率。

4

1 回答 1

0

大多数与系统设计相关的文档集都涉及向用户(真人)展示文档。

非人工评价:

您可能会在您的特定实例中提出“虚假”评估。我希望论文“相关性判断的变化和检索有效性的测量”[1] 中排名最高的论文将是该论文本身。因此,您可以获取数据并创建自动评估。它不会告诉您您的系统是否真的在寻找新事物(您关心的),但它会告诉您您的系统是否糟糕。

例如,如果你在麦当劳,你问地图系统最近的麦当劳在哪里,但它没有找到你所在的那个,你就会知道这是某种系统故障。

进行真正的评估:

您提出一组查询,并为每个查询从您的系统中判断前K个结果。在实践中,您无法查看每个查询的所有数百万篇论文——因此您可以通过您当前知道的召回集来近似召回集。这就是为什么在您正在汇集的系统中具有一些多样性很重要的原因。相关性很棘手;人们对哪些文档与查询相关存在很大分歧。

在您的情况下:人们会不同意哪些论文与另一篇论文相关。但这在很大程度上没关系,因为他们大多会就显而易见的问题达成一致。

如果您要比较系统,则存在分歧是可以的:

只有在比较不同的信息检索系统时,这种范式才有意义。它不能帮助您了解单个系统有多好,但它可以帮助您确定一个系统是否可靠地优于另一个系统 [1]。

[1] Voorhees, Ellen M. “相关性判断的变化和检索有效性的测量”。信息处理与管理 36.5 (2000): 697-716。

于 2016-05-06T15:01:22.877 回答