0

我们获取了大量文档,使用 Watson 的Document Conversion服务将它们分解成段(“答案单元”),并将它们添加到 Retrieve and Rank Solr 集合中。如果我使用来自其中一个答案单元的文本(可能是 150 个单词)的复制/粘贴对集合运行查询,Retrieve 和 Rank 将返回一堆文档,并且(如预期的那样)结果包括来自哪个答案单元查询文本已复制。但是,该答案单元并不是最高的结果;它通常是从顶部开始的 7 或 8 个文档。如果我用引号将查询文本括起来,那么 Solr 正确地认为是一个短语并只返回那个单一的答案单元。但是,如果没有引号,查询中具有确切措辞的文档不应该仍然是结果中的顶级文档吗?

4

1 回答 1

2

您似乎正在使用 /select 端点进行搜索。它不应该是顶部结果,因为它不使用短语查询进行搜索。/select 使用一个布尔查询,该查询考虑到诸如 idf 分数之类的东西来得出最终的 solr 分数。您已经看到通过添加引号,如果您的应用程序想要这样做,您可以强制执行短语查询。现在,这将知道要在应用程序中使用哪种类型的查询的责任。

现在,如果您正在使用 /fcselect 并训练系统,那么随着时间的推移,排名器将“学习”您的问题/文档对中的短语是最重要的,如果事实确实如此的话。然后它将开始将这些文档重新排列得更高。这本质上是 RnR 的重点是从查询和文档中学习如何将最相关的文档带到顶部,而您的应用程序无需编写不同的(通常是时间复杂的)solr 查询来查找文档。

于 2016-08-31T14:50:47.670 回答