2

火花作业的定义是:

作业 - 由多个任务组成的并行计算,这些任务响应 Spark 操作(例如保存、收集)而产生;您会在驱动程序日志中看到该术语。

那么,为什么每个spark-submit人在我可以看到的 dataproc 控制台中只创建一个作业 ID?

示例:以下应用程序应该有 2 个 Spark 作业

sc.parallelize(range(1000),10).collect()
sc.parallelize(range(1000),10).collect()
4

1 回答 1

1

Dataproc 作业和 Spark 作业之间存在差异。当您通过 Dataproc API/CLI 提交脚本时,它会创建一个 Dataproc 作业,然后调用该作业spark-submit以将脚本提交到 Spark。但在 Spark 内部,上面的代码确实创建了 2 个 Spark 作业。您可以在 Spark UI 中看到它:

火花用户界面

于 2022-01-23T18:28:23.957 回答