我正在尝试使用 REST 服务来触发使用 Dataproc API 客户端的 Spark 作业。但是,dataproc 集群中的每个作业需要 10-15 秒来初始化 Spark 驱动程序并提交应用程序。我想知道是否有一种有效的方法可以消除从 gs 存储桶中的 JAR 文件触发的 Spark Java 作业的初始化时间?我正在考虑的一些解决方案是:
- 汇集可用于每个 Spark 作业的 JavaSparkContext 的单个实例
- 启动单个作业并在单个作业中运行基于 Spark 的处理
有没有更有效的方法?我将如何在 Google Dataproc 中实现上述方式?