1

我必须为 solr 6.3 索引大约 4000 亿个文档。我pysolr用来在索引之前解析我的 csv 数据。如何加快索引速度。为了将文档索引到 solr,它使用 add 方法,默认情况下具有以下语法

add(self, docs, boost=None, fieldUpdates=None, commit=True, softCommit=False, commitWithin=None, waitFlush=None, waitSearcher=None, overwrite=None, handler='update')

一个基本选项是,我应该将 commit 和 softcommit 设置为 false 以进行快速索引。这是正确的方式吗?

执行快速索引的任何其他选项?

4

1 回答 1

1

看看你是否单次提交,这将是非常昂贵的内存。所以更好的选择是分批提交,所以我建议保留 count 变量

if(count == 10000)
{
perform solr commit operation
}

此外,使您的索引脚本多线程以快速完成这些批处理。

于 2017-01-29T06:12:09.667 回答