lucene - 使用弹性搜索进行词干

Question

在一个字段上，我想设置一个具有自定义过滤器的自定义分析器 - 专注于词干提取 - 所以“闪存卡”和“闪存卡”被提取到相同的根，因此返回相同的结果

当我运行以下查询时，我得到了命中（很好），但是“闪存卡”和“闪存卡”各自返回不同的结果：

{"query_string": {
     "fields": ["description"],
     "query": query
     }
}

但是当我运行以下查询时，我没有得到任何结果：

{"query_string": {
     "fields": ["description.analyzed"],
     "query": query
     }
}

查看下面的映射，我们看到description.analyzed并description具有相同的配置 - 所以每个字段的行为应该相同，并且应该发生词干提取？

如何确定正在使用分析仪？

我的索引映射：

{'mappings': {
    'file': { # doc_type
      'properties': { # properties for doc_type
        'description': { # field called description
          'type': 'multi_field', # to allow "sub fields" with different alalysers
          'fields': {
            'description': {'type': 'string', 'analyzer': 'my_analyser'},
            'analysed': {'type': 'string', 'analyzer': 'my_analyser'}
          }
        },
      }
     }
    },
    'settings': {
        'analysis': {
          'filter': { #declare my custin filters
            'filter_ngrams': {'max_gram': 5, 'min_gram': 1, 'type': 'edgeNGram'},
            'filter_stop':{'type':'stop', 'enable_position_increments': 'false'},
            'filter_shingle':{'type': 'shingle', 'max_shingle_size': 5, 'min_shingle_size': 2, 'output_unigrams':'true'},
            'filter_stemmer' : {'type': 'stemmer', 'name': 'english'}
          },
          'analyzer': { # declare custom analyzers
            'my_analyser': {
              'filter': ['standard', 'lowercase', 'asciifolding', 'filter_stop', 'filter_shingle', 'filter_stemmer'],
              'type': 'custom',
              'tokenizer': 'standard'
            },
          }
        }
      }
    }

score 2 · Accepted Answer

在您的映射中，您将“描述”和“分析”的分析器作为“my_analyser”，但我假设“描述”分析器实际上应该是默认分析器或其他东西，而不是针对这个问题。

无论如何，如果您要在映射中提取字段以进行索引，您还需要在实际查询文本上使用词干分析器。这就是为什么“闪存卡”和“闪存卡”会得到不同结果的原因——因为您没有在查询字符串中提取词干，实际上是在执行两种不同的搜索。

我不确定这对复杂的 query_string 查询的效果如何，但是您应该将查询请求修改为如下所示：

{"query_string": {
    "fields": ["description.analyzed"],
    "query": query,
    "analyzer": "my_analyzer"}

或类似的东西（确保您指定的分析器正在阻止您的查询）。我很确定 ES 不会像您预期的那样尝试找出您在要搜索的字段上使用的分析器来分析查询。相反，它将使用您设置为默认值的任何分析器。

您还可以设置默认分析器（实际上您可以为索引和搜索设置不同的默认值） - 查看http://www.elasticsearch.org/guide/reference/index-modules/analysis/

lucene - 使用弹性搜索进行词干

1 回答 1

Related

Reference