作为实验的一部分,我尝试在 Lucene 上构建一些实时聚合。文档的值存储在索引中。这对于多达 10K 的文档非常有效。
对于大量文档,这会有点慢。我认为在获取大量文档方面没有太多投资,因为这种方式违背了搜索引擎的目的。
但是,能够做到这一点会很酷。所以,基本上我的问题是:我能做些什么来更快地从 Lucene 获取文档?还是有更聪明的方法?
我已经只检索我需要的字段。
[编辑] 索引相当大 > 50GB。这不适合记忆。字段数量不同,我有几种类型的文档。聚合将主要发生在固定的文档类型上;但没有办法事先知道是哪一个。