我正在为大约 100.000 个条目的视频游戏创建一个搜索引擎,并希望使用 Elasticsearch 对它们进行索引。
我尝试了一些分析仪配置,但我不太确定哪种配置最适合商务产品。
我当前的设置如下所示:
:filter => {
:en_stop_filter => {
"type" => "stop",
"stopwords" => ["_english_"]
},
:en_stem_filter => {
"type" => "stemmer",
"name" => "minimal_english"
}
},
:analyzer => {
:ja_analyzer => {
"type" => "custom",
"tokenizer" => "kuromoji",
"filter" => ["icu_folding", "icu_normalizer"],
"char_filter" => ["html_strip"],
"mode" => "search"
},
:en_analyzer => {
"type" => "custom",
"tokenizer" => "icu_tokenizer",
"filter" => ["icu_folding", "icu_normalizer", "en_stop_filter", "en_stem_filter"],
"char_filter" => ["html_strip"]
}
},
:tokenizer => {
:kuromoji => {
"type" => "kuromoji_tokenizer",
}
}
en_analyzer
用于英文标题和ja_analyzer
日文标题。
我应该使用 ngrams,还是尝试其他类型的分析器?我很难比较搜索结果;也许有人在电子商务搜索方面有一些实践,可以帮助我。