0

我可能通读了 es-hadoop / es-spark 项目使用批量索引的 Stackoverflow。如果确实如此,则默认批量大小是根据 BulkProcessor(5Mb)。是否有任何配置可以改变这一点。

JavaEsSparkSQL.saveToEs(dataset,index)在我的代码中使用,我想知道可用于调整性​​能的可用配置是什么。这是否也与数据集的分区有关。

4

1 回答 1

0

在他们的配置页面上找到设置

es.batch.size.bytes (default 1mb)

使用 Elasticsearch 批量 API 进行批量写入的大小(以字节为单位)。请注意,批量大小是为每个任务实例分配的。始终乘以 Hadoop 作业中的任务数,以获得运行时达到 Elasticsearch 的总批量大小。

es.batch.size.entries (default 1000)

使用 Elasticsearch 批量 API 进行批量写入的大小(以条目为单位) - (0 禁用它)。es.batch.size.bytes 的伴侣,一旦匹配,就会执行批量更新。与大小类似,此设置是针对每个任务实例的;它在运行时乘以正在运行的 Hadoop 任务的总数。

于 2016-11-09T03:42:31.580 回答