0

我正在开发一个 spark 程序,我必须在其中加载 avro 数据并对其进行处理。我试图了解如何为 spark 应用程序创建作业 ID。我使用下面的代码行来加载 avro 数据。

sqlContext.read.format("com.databricks.spark.avro").load(路径)

据我所知,工作 ID 将根据程序中遇到的操作创建。我的工作计划每 30 分钟运行一次。当我查看此应用程序的 spark 历史服务器时,我看到为加载操作创建了一个作业 ID。它只是偶尔发生,日志看起来非常好。我正在使用火花 1.6.1

我很想知道加载操作是否会在应用程序中创建新的作业 ID?

4

1 回答 1

0

通常,除非您为DataFrameReader. 根据源范围和影响的不同,可以从简单的元数据访问到完整的数据扫描。

在这种特殊情况下,它几乎仅限于文件系统扫描和对读取模式的单个文件访问。

于 2016-07-18T17:20:32.347 回答