1

关于在 Lucene 中处理德语变音符号,我有两个问题:

  1. 我正在尝试找到一种方法将德语变音符号转换为“ue”、“ae”等形式的折叠形式“u”、“a”等。这是由 GermanAnalyzer(以及它使用的 German2StemFilter)完成的,但不幸的是,它也会进行词干提取,这在我的情况下是非常不希望的。是否有任何其他过滤器只能进行 'ue' -> 'u' 转换?

  2. 是否有任何过滤器可以进行 'ü' -> 'ue' (不是 'u' 像 ASCIIFoldingFilter 那样)转换?我想要实现的是,只要用户搜索“über”或“ueber”,就应该在索引中找到“über”这个词,而不是“uber”。

4

2 回答 2

2

您可以使用MappingCharFilterFactory并提供您自己的映射文件,您可以在其中选择做任何您想做的事情,例如 'ü' -> 'ue'

于 2012-11-20T08:15:28.820 回答
2

German2 的算法,但没有词干:

https://lucene.apache.org/core/4_0_0/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

于 2012-11-21T04:51:37.577 回答