所以我写了一个小工具(给定一个查询)列出按查询分数排序的前 1000 个结果文档。显然,并非所有这些都是相关的。作为用户,我和其他人经常做以下事情:
- 看成绩
- 向下滚动列表,直到您看到“显着”的分数损失。
例如顶级文档的分数是这样的:4.2, 3.9, 3.9, 3.85, ..., 3.7, 0.3 , 0.3, 0.25, ... 通常我们可以说直到 3.7 分数之前的所有文档都是相关的,其余的(从 0.3 开始)都不相关。鉴于这个分数列表,这甚至是显而易见的,幸运的是,在我们的用例中它运行良好。
是否有任何最先进的算法可以在数字列表(这里是分数)中找到这样的“差距”/“损失”?
以下事实:
- 热门文档总是相关的
- 有一点与任何(或几乎没有)文件相关
- 这一点可以通过分数的第一个差距来识别