我正在使用DictionaryCompoundWordTokenFilterFactory。我有一个荷兰语Compound_words_dict_nl.txt ,其中包含以下单词:
pen
slot
knop
我用这本词典来划分penslot和knoppen 两个词。
问题是,我不希望将 knoppen 词视为复合词。它是 knop 的复数形式。过滤器会将其划分为 knop 和 pen,这将返回包含 knop 和 pen 的结果。但是 knoppen 词不应该生成笔词。只是一个词干版本 - knop(我在分析器中用词干过滤器覆盖)。
如果我从字典中取出 pen 单词,它只会添加单词 slot 作为标记,而我不希望它用于 penslot 案例。
此类问题是否有简单的解决方法,或者我是否需要创建一些自定义过滤器?