我目前正在索引 Wikipedia 转储(实际上是 2012 年的转储,但格式相同),并想了解性能成本(大小和处理时间)。
我正在使用 Lucene for Java v4.x 并将所有转储字段存储在索引中。我在一台配备 i5 处理器和 8 GB RAM 的机器上工作。我刚刚完成了 5000 篇文章的索引,这些文章创建了一个大小为 5GB 的索引,耗时约 10 分钟。
这意味着对于 350 万篇文章,这将是一个 3.5 TB 的索引,如果索引时间是线性的(事实并非如此),这将花费我大约 5 天的时间。我想知道这是否正常,因为原始维基百科转储文件只有 35 GB...