apache-spark - ES批量大小不反映在火花+弹性搜索

翻译自：https://stackoverflow.com/questions/46854091 2017-10-20T17:12:18.897

923 次

尝试读取 9 GB 的 json 数据（在多个文件中）并使用 spark 弹性搜索连接器加载到 ES。

它花费了比预期更多的时间，完成了 288 个任务，每个任务写入 32MB，大约需要 19 秒才能完成。其中一份文件建议减少写入 ES 的数据块，因此我已将这些配置添加到 spark config

    conf.set("es.batch.size.bytes","2000000");
    conf.set("es.batch.size.entries","1500");

而且我没有看到它在任务运行时得到反映，因为它仍然有 288 个任务和每个任务相同的 32mb。有人可以帮助理解如何使用这些配置吗？提前致谢。

0 回答 0