0

我们有两个弹性搜索实例,一个运行 1.2.1 和一个 1.4,两个实例上运行的索引的设置和映射相同,但结果不同。

默认分析器的设置:

....
analysis: {
 filter: {
  ourEnglishStopWords: {
   type: "stop",
   stopwords: "_english_"
  },
  ourEnglishFilter: {
   type: "stemmer",
   name: "english"
  }
 },
 analyzer: {
  default: {
   filter: [
    "asciifolding",
    "lowercase",
    "ourEnglishStopWords",
    "ourEnglishFilter"
   ],
   tokenizer: "standard"
  }
 }
},
...

弹性搜索版本之间的差异出现在索引/搜索所有格形式时,而在 1.2.1 中,“player”、“players”和“player's”将返回相同的结果,在 1.4 中,前两个(“player”和“players”)具有相同的结果集,而“玩家的”与该集不匹配这是已知的差异吗?在 1.4 及更高版本中获得相同行为的正确方法是什么?

4

1 回答 1

2

我认为是 1.3.0 中引入的变化:

StemmerTokenFilter 有很多问题:

  1. 英语返回了慢雪球英语词干分析器
  2. porter2 返回了雪球 Porter stemmer (v1)

变化:

  1. 英语现在返回快速的 PorterStemmer(对于从 v1.3.0 开始创建的索引)
  2. porter2 现在返回滚雪球英语词干分析器(适用于从 v1.3.0 开始创建的索引)

根据那个 github 问题,您可以将映射更改为:

    "ourEnglishFilter": {
      "type": "stemmer",
      "name": "porter2"
    }

或尝试其他方法:

 "filter": {
    "ourEnglishStopWords": {
      "type": "stop",
      "stopwords": "_english_"
    },
    "ourEnglishFilter": {
      "type": "stemmer",
      "name": "english"
    },
    "possesiveEnglish": {
      "type": "stemmer",
      "name": "possessive_english"
    }
  },
  "analyzer": {
    "default": {
      "filter": [
        "asciifolding",
        "lowercase",
        "ourEnglishStopWords",
        "possesiveEnglish",
        "ourEnglishFilter"
      ],
      "tokenizer": "standard"
    }
  }
于 2015-01-07T19:27:33.110 回答