3

我正在使用DictionaryCompoundWordTokenFilterFactory。我有一个荷兰语Compound_words_dict_nl.txt ,其中包含以下单词:
pen
slot
knop

我用这本词典来划分penslotknoppen 两个词。

问题是,我不希望将 knoppen 词视为复合词。它是 knop 的复数形式。过滤器会将其划分为 knop 和 pen,这将返回包含 knop 和 pen 的结果。但是 knoppen 词不应该生成笔词。只是一个词干版本 - knop(我在分析器中用词干过滤器覆盖)。

如果我从字典中取出 pen 单词,它只会添加单词 slot 作为标记,而我不希望它用于 penslot 案例。

此类问题是否有简单的解决方法,或者我是否需要创建一些自定义过滤器?

4

0 回答 0