1

我正在 FAST ESP 服务器上运行搜索应用程序。现在我在字符规范化方面遇到了这个问题。

我想要的是搜索“wurth”并在“würth”中获得成功。

我尝试在 esp/etc/tokenizer/tokenization.xml 中配置以下内容

 <normalizationlist name="German to Norwegian">
   <normalization description="German u with diaeresis, to Norwegian u">
      <input>x75</input> 
      <output>xFC</output> 
      <output>x75</output>
   </normalization>
  </normalizationlist>

但是当然,这会将所有 u 转换为 ü,这是没有用的。

如何以正确的方式配置它?

4

3 回答 3

1

解决方案是将每个“特殊字符”规范化为相同的“普通字符”;

ö -> o ø -> o å -> a ä -> a æ -> a

这有点耗时,但它有效!

于 2009-10-20T08:05:28.250 回答
0

阅读高级物流指南。它包含关于字符规范化的一章。当您按照指南中的步骤操作时,所有特殊字符都将被视为普通字符。因此,搜索 über 将得到与搜索 uber 相同的结果。

于 2009-11-03T20:14:47.180 回答
0

您还可以安装 MS 支持提供的自定义词典,然后可以提供每种语言的词典。因此,如果您安装德语,那么搜索引擎将通过您的意思功能了解您要搜索的内容。安装字典后,您可以启用搜索查询。也不要忘记使用正确的字符编码正确设置搜索模式以支持多语言。如果集合中的文档没有使用正确的字符编码进行索引,那么您在标记化和查询结束时所做的任何努力都是无用的。

于 2017-10-31T02:58:15.947 回答