apache-spark - 当 pyspark 脚本中有多个操作时，为什么 dataproc 中只有 1 个作业 ID？

Question

火花作业的定义是：

作业 - 由多个任务组成的并行计算，这些任务响应 Spark 操作（例如保存、收集）而产生；您会在驱动程序日志中看到该术语。

那么，为什么每个spark-submit人在我可以看到的 dataproc 控制台中只创建一个作业 ID？

示例：以下应用程序应该有 2 个 Spark 作业

sc.parallelize(range(1000),10).collect()
sc.parallelize(range(1000),10).collect()

score 1 · Accepted Answer

Dataproc 作业和 Spark 作业之间存在差异。当您通过 Dataproc API/CLI 提交脚本时，它会创建一个 Dataproc 作业，然后调用该作业spark-submit以将脚本提交到 Spark。但在 Spark 内部，上面的代码确实创建了 2 个 Spark 作业。您可以在 Spark UI 中看到它：

apache-spark - 当 pyspark 脚本中有多个操作时，为什么 dataproc 中只有 1 个作业 ID？

1 回答 1

Related

Reference