3

基本匹配查询:Billy Sue

测试匹配查询 #1:Billy Sue 和

测试匹配查询 #2:比利和苏

我们最终在 Base 和 #1 之间得到相同的分数,但 Base 和 #2 的分数相似但不同。

使用分析 API,两个测试查询中的停用词都被删除,但基本查询和测试查询 #2 之间的andstart_offset 和 end_offset 标记属性不同。Sue

本质上,剩余标记之间的停用词删除前距离被记录下来,并且对评分的影响很小但有限。

问题

有没有办法将令牌的start_offsetend_offset属性的计算延迟到停用词被删除之后,或者以其他方式防止删除的停用词以任何方式影响评分?

4

1 回答 1

3

也许禁用停用 词过滤器上的位置增量,看看是否有帮助?特别是如果您的映射在停用词过滤器之后有某种过滤器,您会从位置增量中得到奇怪的伪影

例如这样的:

"analyzer": {
   "analyzer_example":{
      "tokenizer":"standard",
      "filter":["standard", "lowercase", "filter_stop"]
    }
},
"filter": { 
   "filter_stop":{
      "type":"stop",
      "enable_position_increments":"false"
    }
}
于 2013-01-23T16:19:27.060 回答