可能重复:
如何使用 Lucene 获取频繁出现的短语
我需要在索引中找到出现次数最多的词或词组,这意味着出现次数最多的文本可能是词本身或词组。非常类似于推特的热门话题(当然没有标签实体)。Lucene 是否提供了某种方法来做到这一点,或者我如何在海量数据中实现这一点。如果问题不清楚,我可以举出更具体的例子。顺便说一句,我正在使用 java 和 Lucene 3.5。
快速编辑“词组”最多可以包含 3 个词。假设在一个大文本中,我有“是”500 次“天气”100 次“好”300 次和词组“天气很好”90 次。我需要确定“天气很好”的出现对我来说是否重要。当然,我需要查看每个索引词...
谢谢你。