我正在为弹性搜索使用语音插件过滤器。https://github.com/elastic/elasticsearch-analysis-phonetic
当我创建索引时,我正在使用以下设置创建自定义过滤器。
soundex: {
type: "phonetic",
encoder: "metaphone",
replace: "true"
}
这工作正常,但正在创建最大长度为 4 个字符的变音标记,这给我的搜索结果增加了太多噪音。例如,我获得了用于避孕和控制的 KNTR(它是医疗数据)。
根据Metaphone 算法的意外结果,底层 Java API 包含一个 setMaxCodeLen 值。在elasticsearch中配置时如何设置?
我想做类似的事情:
soundex: {
type: "phonetic",
encoder: "metaphone",
replace: "true",
maxcodelen: 8
}
但到目前为止,我一直无法确定是否可以配置编码器以增加编码令牌的最大长度。可以这样配置吗?如果是这样,怎么做?