我正在使用 ElasticSearch(通过 Ruby、Tire)在电子商务服装网站上进行搜索。我需要一个词干过滤器,但我还需要能够指定一个不受词干的保护词列表。目前我正在使用雪球过滤器进行词干提取,但我不知道是否可以指定受保护的词。我还查看了其他一些词干过滤器:
- Porter Stem 的词干处理似乎过于激进,导致了奇怪的混乱
- KStem 似乎只有英文,这是一个多语言项目
- Stemmer 声称像雪球一样,但功能更全面,但我找不到任何关于它的好文档
我的问题是:有没有办法用雪球来实现这些目标(如果有,怎么做?)还是我需要切换到其他词干过滤器之一?