我希望能够在 lucene 查询中找到术语计数。例如,我有两个字段,一个是位置,另一个是类别。如果我运行查询以获取“加利福尼亚州洛杉矶”中的所有文档,那么我希望能够快速查看这些文档的类别。我知道 solr 用 faceting 做这种事情,但我希望用普通的旧 Lucene 做这件事。现在我正在遍历所有 doc id,然后使用哈希表来计算条款,但这很慢。
一种获得术语但仅限于我的查询的方法将是理想的。
现在我正在为我们正在使用的框架开发类似的东西。
我在这里收集了一些描述问题和解决方案的资源: http ://code.google.com/p/gtxcontentconnector/issues/detail?id=41