elasticsearch - Elasticsearch hadoop 配置批量批量大小

Question

我可能通读了 es-hadoop / es-spark 项目使用批量索引的 Stackoverflow。如果确实如此，则默认批量大小是根据 BulkProcessor(5Mb)。是否有任何配置可以改变这一点。

我JavaEsSparkSQL.saveToEs(dataset,index)在我的代码中使用，我想知道可用于调整性能的可用配置是什么。这是否也与数据集的分区有关。

score 0 · Accepted Answer

在他们的配置页面上找到设置

es.batch.size.bytes (default 1mb)

使用 Elasticsearch 批量 API 进行批量写入的大小（以字节为单位）。请注意，批量大小是为每个任务实例分配的。始终乘以 Hadoop 作业中的任务数，以获得运行时达到 Elasticsearch 的总批量大小。

es.batch.size.entries (default 1000)

使用 Elasticsearch 批量 API 进行批量写入的大小（以条目为单位） - （0 禁用它）。es.batch.size.bytes 的伴侣，一旦匹配，就会执行批量更新。与大小类似，此设置是针对每个任务实例的；它在运行时乘以正在运行的 Hadoop 任务的总数。

1 回答 1