尝试读取 9 GB 的 json 数据(在多个文件中)并使用 spark 弹性搜索连接器加载到 ES。
它花费了比预期更多的时间,完成了 288 个任务,每个任务写入 32MB,大约需要 19 秒才能完成。其中一份文件建议减少写入 ES 的数据块,因此我已将这些配置添加到 spark config
conf.set("es.batch.size.bytes","2000000");
conf.set("es.batch.size.entries","1500");
而且我没有看到它在任务运行时得到反映,因为它仍然有 288 个任务和每个任务相同的 32mb。有人可以帮助理解如何使用这些配置吗?提前致谢。