以以下映射为例:
PUT /test
{
"settings": {
"analysis": {
"filter": {
"my_hunspell": {
"type": "hunspell",
"language": "en_GB"
}
},
"analyzer": {
"my_test": {
"type" : "custom",
"tokenizer": "lowercase",
"filter": ["my_hunspell"]
}
}
}
}
}
我已经从官方 Mozilla 页面下载了 hunspell 词典。
现在的问题是某些词,例如啤酒,被过度分析了。以下查询将啤酒转化为蜜蜂,这不完全正确?
POST /test/_analyze?analyzer=my_test&text=beer
{
"tokens": [
{
"token": "bee",
"start_offset": 0,
"end_offset": 4,
"type": "word",
"position": 1
}
]
}
Hunspell 语法很难理解。可以做些什么来避免这种行为?是否可以保留一些单词或添加一些规则?