大多数与系统设计相关的文档集都涉及向用户(真人)展示文档。
非人工评价:
您可能会在您的特定实例中提出“虚假”评估。我希望论文“相关性判断的变化和检索有效性的测量”[1] 中排名最高的论文将是该论文本身。因此,您可以获取数据并创建自动评估。它不会告诉您您的系统是否真的在寻找新事物(您关心的),但它会告诉您您的系统是否糟糕。
例如,如果你在麦当劳,你问地图系统最近的麦当劳在哪里,但它没有找到你所在的那个,你就会知道这是某种系统故障。
进行真正的评估:
您提出一组查询,并为每个查询从您的系统中判断前K个结果。在实践中,您无法查看每个查询的所有数百万篇论文——因此您可以通过您当前知道的召回集来近似召回集。这就是为什么在您正在汇集的系统中具有一些多样性很重要的原因。相关性很棘手;人们对哪些文档与查询相关存在很大分歧。
在您的情况下:人们会不同意哪些论文与另一篇论文相关。但这在很大程度上没关系,因为他们大多会就显而易见的问题达成一致。
如果您要比较系统,则存在分歧是可以的:
只有在比较不同的信息检索系统时,这种范式才有意义。它不能帮助您了解单个系统有多好,但它可以帮助您确定一个系统是否可靠地优于另一个系统 [1]。
[1] Voorhees, Ellen M. “相关性判断的变化和检索有效性的测量”。信息处理与管理 36.5 (2000): 697-716。