lucene - Elasticsearch - 如果词的频率更高，则得分更高

Question

我有 2 个文档，正在搜索关键字“Twitter”。假设两个文档都是带有“标签”字段的博客文章。

文档 A 在“标签”字段中只有 1 个术语，它是“Twitter”。文档 B 在“标签”字段中有 100 个术语，但其中 3 个是“Twitter”。

即使文档 B 的频率更高，弹性搜索也会给文档 A 更高的分数。但是分数被“稀释”了，因为它有更多的术语。我如何给文档 B 一个更高的分数，因为它具有更高的搜索词频率？

我知道 ElasticSearch/Lucene 会根据文档中的术语数量进行一些规范化。如何禁用此规范化，以便文档 B 获得更高的分数？

score 3 · Accepted Answer

正如另一个答案所说，看看你在单个分片上是否有相同的结果会很有趣。我认为你会，这取决于标签字段的规范，在使用 tf/idf 相似度（默认）计算分数时会考虑到这一点。

事实上，lucene 确实考虑了术语频率，即术语出现在字段中的次数（在您的情况下为 1 或 3 次），以及倒置文档频率，换句话说，术语在索引，以便将其与查询中的其他术语进行比较（在您的情况下，如果您正在搜索单个术语，它没有任何区别）。

但是还有另一个称为规范的因素，它奖励较短的字段并考虑最终的索引时间提升，这可以是每个字段（在映射中）甚至每个文档。您可以验证规范是否是您在搜索请求中启用解释选项并查看解释输出的结果的原因。

我想第一个文档仅包含该标签这一事实使得其他包含该标签多次但也包含许多其他标签的文档更为重要。如果您不喜欢这种行为，您可以在标签字段的映射中禁用规范。"index":"analyzed"如果该字段为（默认），则默认情况下应启用它。"index":"not_analyzed"如果您不想分析标签字段（这通常有意义，但取决于您的数据和域），您可以切换到，也可以在标签字段"omit_norms": true的映射中添加选项。

score 0 · Accepted Answer

文件是否在不同的分片上找到？来自弹性搜索文档：

“在特定分片上执行查询时，它不会考虑来自其他分片的词频和其他搜索引擎信息。如果我们想要支持准确的排名，我们需要首先对所有分片执行查询并收集相关的词频，然后根据它执行查询。”

解决方案是指定搜索类型。使用 dfs_query_and_fetch 搜索类型来执行初始分散阶段，该阶段会计算分布式术语频率以获得更准确的评分。

你可以在这里阅读更多。

lucene - Elasticsearch - 如果词的频率更高，则得分更高

2 回答 2

Related

Reference