1

我正在为大约 100.000 个条目的视频游戏创建一个搜索引擎,并希望使用 Elasticsearch 对它们进行索引。

我尝试了一些分析仪配置,但我不太确定哪种配置最适合商务产品。

我当前的设置如下所示:

:filter => {
  :en_stop_filter => {
      "type" => "stop",
      "stopwords" => ["_english_"]
  },
  :en_stem_filter => {
      "type" => "stemmer",
      "name" => "minimal_english"
  }
},
:analyzer => {
  :ja_analyzer => {
        "type" => "custom",
        "tokenizer" => "kuromoji",
        "filter" => ["icu_folding", "icu_normalizer"],
        "char_filter" => ["html_strip"],
        "mode" => "search"
  },
  :en_analyzer => {
              "type" => "custom",
              "tokenizer" => "icu_tokenizer",
              "filter" => ["icu_folding", "icu_normalizer", "en_stop_filter", "en_stem_filter"],
              "char_filter" => ["html_strip"]
  }
},
:tokenizer => {
  :kuromoji => {
      "type" => "kuromoji_tokenizer",

  }
}

en_analyzer用于英文标题和ja_analyzer日文标题。

我应该使用 ngrams,还是尝试其他类型的分析器?我很难比较搜索结果;也许有人在电子商务搜索方面有一些实践,可以帮助我。

4

0 回答 0