character-encoding - 快速 ESP 字符归一化

Question

我正在 FAST ESP 服务器上运行搜索应用程序。现在我在字符规范化方面遇到了这个问题。

我想要的是搜索“wurth”并在“würth”中获得成功。

我尝试在 esp/etc/tokenizer/tokenization.xml 中配置以下内容

 <normalizationlist name="German to Norwegian">
   <normalization description="German u with diaeresis, to Norwegian u">
      <input>x75</input> 
      <output>xFC</output> 
      <output>x75</output>
   </normalization>
  </normalizationlist>

但是当然，这会将所有 u 转换为 ü，这是没有用的。

如何以正确的方式配置它？

score 1 · Accepted Answer

解决方案是将每个“特殊字符”规范化为相同的“普通字符”；

ö -> o ø -> o å -> a ä -> a æ -> a

这有点耗时，但它有效！

score 0 · Accepted Answer

阅读高级物流指南。它包含关于字符规范化的一章。当您按照指南中的步骤操作时，所有特殊字符都将被视为普通字符。因此，搜索 über 将得到与搜索 uber 相同的结果。

score 0 · Accepted Answer

您还可以安装 MS 支持提供的自定义词典，然后可以提供每种语言的词典。因此，如果您安装德语，那么搜索引擎将通过您的意思功能了解您要搜索的内容。安装字典后，您可以启用搜索查询。也不要忘记使用正确的字符编码正确设置搜索模式以支持多语言。如果集合中的文档没有使用正确的字符编码进行索引，那么您在标记化和查询结束时所做的任何努力都是无用的。

character-encoding - 快速 ESP 字符归一化

3 回答 3

Related

Reference