我正在尝试在 Google Dataproc 上运行 Spark 作业。然而,正如通常所见,Spark Driver 的初始化占用了很大一部分执行时间。我想知道使用同一个 JavaSparkContext 实例在 Google Dataproc 上运行多个 Spark 作业的好方法是什么,这样我就不会因为 spark 驱动程序初始化而失去每个作业的性能。目前,我的代码如下所示:
public static void main(String[] args) {
SparkConf configuration = new SparkConf().setAppName("App");
final JavaSparkContext context = new JavaSparkContext(configuration);
// Do stuff
// Stop connection to Java Spark
context.stop();
}