solr - 为什么具有完全匹配的文档不是 Retrieve and Rank Solr 查询中的第一个结果？

Question

我们获取了大量文档，使用 Watson 的Document Conversion服务将它们分解成段（“答案单元”），并将它们添加到 Retrieve and Rank Solr 集合中。如果我使用来自其中一个答案单元的文本（可能是 150 个单词）的复制/粘贴对集合运行查询，Retrieve 和 Rank 将返回一堆文档，并且（如预期的那样）结果包括来自哪个答案单元查询文本已复制。但是，该答案单元并不是最高的结果；它通常是从顶部开始的 7 或 8 个文档。如果我用引号将查询文本括起来，那么 Solr 正确地认为是一个短语并只返回那个单一的答案单元。但是，如果没有引号，查询中具有确切措辞的文档不应该仍然是结果中的顶级文档吗？

score 2 · Accepted Answer

您似乎正在使用 /select 端点进行搜索。它不应该是顶部结果，因为它不使用短语查询进行搜索。/select 使用一个布尔查询，该查询考虑到诸如 idf 分数之类的东西来得出最终的 solr 分数。您已经看到通过添加引号，如果您的应用程序想要这样做，您可以强制执行短语查询。现在，这将知道要在应用程序中使用哪种类型的查询的责任。

现在，如果您正在使用 /fcselect 并训练系统，那么随着时间的推移，排名器将“学习”您的问题/文档对中的短语是最重要的，如果事实确实如此的话。然后它将开始将这些文档重新排列得更高。这本质上是 RnR 的重点是从查询和文档中学习如何将最相关的文档带到顶部，而您的应用程序无需编写不同的（通常是时间复杂的）solr 查询来查找文档。

solr - 为什么具有完全匹配的文档不是 Retrieve and Rank Solr 查询中的第一个结果？

1 回答 1

Related

Reference