java - 从 Lucene 索引中获取最高频率项

Question

我需要从几个 lucene 索引中提取频率最高的术语，以将它们用于一些语义分析。

所以，我想获得前 30 个最常出现的术语（仍然没有决定阈值，我将分析结果）和它们的每个索引计数。我知道我可能会因为潜在地丢弃重复而失去一些精度，但现在，可以说我可以接受。

因此，对于提出的解决方案，（不用说也许）速度并不重要，因为我会进行静态分析，我会强调实现的简单性，因为我对 Lucene 不太熟练，并且无法围绕它的一些概念来思考。 .

我找不到任何类似的代码示例，所以所有具体的建议（代码、伪代码、代码示例的链接......）感谢所有的建议！

谢谢！

score 5 · Accepted Answer

一个非常简单的方法是使用Luke。在“概述”选项卡上，有一个“显示热门术语”按钮，可用于您需要的内容。

score 2 · Accepted Answer

此页面中的类具有computeTopTermQuery方法，您应该可以轻松地对其进行改造以遍历多个索引。

2 回答 2