apache-spark - 尝试了解 Spark UI 作业选项卡

Question

我正在开发一个 spark 程序，我必须在其中加载 avro 数据并对其进行处理。我试图了解如何为 spark 应用程序创建作业 ID。我使用下面的代码行来加载 avro 数据。

sqlContext.read.format("com.databricks.spark.avro").load(路径)

据我所知，工作 ID 将根据程序中遇到的操作创建。我的工作计划每 30 分钟运行一次。当我查看此应用程序的 spark 历史服务器时，我看到为加载操作创建了一个作业 ID。它只是偶尔发生，日志看起来非常好。我正在使用火花 1.6.1

我很想知道加载操作是否会在应用程序中创建新的作业 ID？

score 0 · Accepted Answer

通常，除非您为DataFrameReader. 根据源范围和影响的不同，可以从简单的元数据访问到完整的数据扫描。

1 回答 1