我正在使用以下代码通过 AWS Glue 将 pyspark 数据帧写入 elasticsearch。
df.write.format("org.elasticsearch.spark.sql").\
mode("overwrite").\
option("es.resource", "{}/_doc".format(es_index_name)).\
option("es.nodes", es_node_url).\
option("es.port", es_node_port).\
option("es.nodes.wan.only", "true").\
options(**es_conf).\
save()
我的问题是,有没有办法控制glue/pyspark 向Amazon Elasticsearch (ES) 提交写入操作的速度?因为大量写入导致 ES 抛出错误,导致胶水作业无法完成。目前,我正在尝试找到最佳编号。生成胶水工人和最佳 ES 配置,因此不会发生,但我怀疑这种反复试验的方法是处理此类问题的最有效方法。提前致谢。