火花作业的定义是:
作业 - 由多个任务组成的并行计算,这些任务响应 Spark 操作(例如保存、收集)而产生;您会在驱动程序日志中看到该术语。
那么,为什么每个spark-submit
人在我可以看到的 dataproc 控制台中只创建一个作业 ID?
示例:以下应用程序应该有 2 个 Spark 作业
sc.parallelize(range(1000),10).collect()
sc.parallelize(range(1000),10).collect()
火花作业的定义是:
作业 - 由多个任务组成的并行计算,这些任务响应 Spark 操作(例如保存、收集)而产生;您会在驱动程序日志中看到该术语。
那么,为什么每个spark-submit
人在我可以看到的 dataproc 控制台中只创建一个作业 ID?
示例:以下应用程序应该有 2 个 Spark 作业
sc.parallelize(range(1000),10).collect()
sc.parallelize(range(1000),10).collect()