我正在使用 Lucene(或更具体地说是 Compass)在论坛中记录线程,我需要一种方法来提取讨论背后的关键字。也就是说,我不想索引某人所做的每个条目,而是我有一个与特定上下文相关的“关键字”列表,如果条目与关键字匹配并且高于阈值,我会添加这些条目到索引。
我希望能够使用分析器的功能来剥离事物并发挥其魔力,然后从分析器返回标记以匹配关键字,并计算某些单词被提及的出现次数。
有没有办法从分析器中获取令牌,而无需索引每个条目的开销?
我在想我必须维护一个 RAMDirectory 来保存所有条目,然后使用我的关键字列表执行搜索,然后将相关文档合并到持久性管理器以实际存储相关条目。