7

我是弹性搜索的新手,所以我很难找到我们数据的最佳查询。

想象一下,我想匹配以下单词“Handelsstandens Boldklub”。

目前,我正在使用以下查询:

{
    query: {
      bool: {
        should: [
          {
            match: {
              name: {
                query: query, slop: 5, type: "phrase_prefix"
              }
            }
          },
          {
            match: {
              name: {
                query: query,
                fuzziness: "AUTO",
                operator: "and"
              }
            }
          }
        ]
      }
    }
  }

如果我正在搜索“Hand”,它当前会列出该词,但如果我搜索“Handle”,则该词将不再列出,因为我打错了字。但是,如果我以“Handlesstandens”到达结尾,它将再次列出,因为模糊会捕捉到错字,但只有当我输入了整个单词时。

是否有可能同时进行短语前缀和模糊性?那么在上述情况下,如果我在途中打错字,它仍然会列出单词吗?

所以在这种情况下,如果我搜索“Handle”,它仍然会匹配“Handelsstandens Boldklub”这个词。

或者还有什么其他的变通方法可以实现上述体验?我喜欢短语前缀匹配,因为它也支持草率匹配(因此我可以搜索“Boldklub han”,它会列出结果)

还是可以通过使用完成建议器来实现上述目标?

4

1 回答 1

5

好的,所以在进一步研究了 elasticsearch 之后,我得出了我应该使用 ngrams 的结论。

这是对它的作用和工作原理的一个非常好的解释。 https://qbox.io/blog/an-introduction-to-ngrams-in-elasticsearch

这是我使用的设置和映射:(这是 elasticsearch-rails 语法)

settings analysis: {
  filter: {
    ngram_filter: {
      type: "ngram",
      min_gram: "2",
      max_gram: "20"
    }
  },
  analyzer: {
    ngram_analyzer: {
      type: "custom",
      tokenizer: "standard",
      filter: ["lowercase", "ngram_filter"]
    }
  }
} do
  mappings do
    indexes :name, type: "string", analyzer: "ngram_analyzer"
    indexes :country_id, type: "integer"
  end
end

和查询:(这个查询实际上同时在两个不同的索引中搜索)

{
    query: {
      bool: {
        should: [
          {
            bool: {
              must: [
                { match: { "club.country_id": country.id } },
                { match: { name: query } }
              ]
            }
          },
          {
            bool: {
              must: [
                { match: { country_id: country.id } },
                { match: { name: query } }
              ]
            }
          }
        ],
        minimum_should_match: 1
      }
    }
  }

但基本上你应该只做一个匹配或多重匹配查询,这取决于你要搜索多少个字段。

我希望有人觉得它有帮助,因为我个人在模糊性而不是 ngrams 方面考虑了很多(以前不知道)。这把我引向了错误的方向。

于 2016-08-26T09:31:10.623 回答