如果 lucene 文档包含单词cheeseburger并且用户搜索burger以找到该文档,我希望这样。我看到我可能需要一个自定义分析器来将这个复合词分解为cheese和burger。但是,破口大骂也可能带来不相干的结果。
例如:如果在索引生产时我们同时索引产品和离子,那么当用户搜索包含生产的离子文档时会出现,这是不相关的。
所以一个简单的断词器不会削减它。我需要一种方法来知道芝士汉堡与汉堡和奶酪有关,但生产与ion无关。
是否有更智能的过程来实现这一目标?
这是否有一个名字,就像词干是将单词简化为词根形式一样?