lucene - 在 ElasticSearch 中，移除的停用词对评分的影响仍然很小

Question

基本匹配查询：Billy Sue

测试匹配查询 #1：Billy Sue 和

测试匹配查询 #2：比利和苏

我们最终在 Base 和 #1 之间得到相同的分数，但 Base 和 #2 的分数相似但不同。

使用分析 API，两个测试查询中的停用词都被删除，但基本查询和测试查询 #2 之间的andstart_offset 和 end_offset 标记属性不同。Sue

本质上，剩余标记之间的停用词删除前距离被记录下来，并且对评分的影响很小但有限。

问题

有没有办法将令牌的start_offset和end_offset属性的计算延迟到停用词被删除之后，或者以其他方式防止删除的停用词以任何方式影响评分？

score 3 · Accepted Answer

也许禁用停用词过滤器上的位置增量，看看是否有帮助？特别是如果您的映射在停用词过滤器之后有某种过滤器，您会从位置增量中得到奇怪的伪影

例如这样的：

"analyzer": {
   "analyzer_example":{
      "tokenizer":"standard",
      "filter":["standard", "lowercase", "filter_stop"]
    }
},
"filter": { 
   "filter_stop":{
      "type":"stop",
      "enable_position_increments":"false"
    }
}

lucene - 在 ElasticSearch 中，移除的停用词对评分的影响仍然很小

1 回答 1

Related

Reference