我正在 FAST ESP 服务器上运行搜索应用程序。现在我在字符规范化方面遇到了这个问题。
我想要的是搜索“wurth”并在“würth”中获得成功。
我尝试在 esp/etc/tokenizer/tokenization.xml 中配置以下内容
<normalizationlist name="German to Norwegian">
<normalization description="German u with diaeresis, to Norwegian u">
<input>x75</input>
<output>xFC</output>
<output>x75</output>
</normalization>
</normalizationlist>
但是当然,这会将所有 u 转换为 ü,这是没有用的。
如何以正确的方式配置它?