6

I am adding Billions of rows to Lucene index, each row is almost 6000 Bytes. Is there any limit on the maximum number of rows that can be added to Lucene Index? How much space would Billion rows of 6000 bytes occupy on Lucene Index. Is there any limit for this size?

4

1 回答 1

8

有关其限制,请参阅 Lucene 文档,它不能超过

  • ~ 2740 亿个不同的术语,
  • 约 21 亿份文件。

对于如此大的数据集,通常最好只使用 Lucene 作为其倒排索引,并将文档的实际内容存储在其他地方。您可以预期索引大小约为原始文档语料库大小的 30%(假设这些是常规文档,具有许多唯一术语的计算生成的文档会生成更大的索引)。

于 2012-07-05T12:38:09.193 回答