apache-spark - spark中的作业执行

翻译自：https://stackoverflow.com/questions/61628584 2020-05-06T06:16:59.567

180 次

我对 spark 非常陌生，并试图使用以下命令检查 spark UI 中的 DAG 创建：

当我使用命令读取简单的 csv 文件时

val df = spark.read.format("csv").option("header", "true").load("/home/user/test.csv") then in spark only 1 STAGE is creating with DAG as :

而且我不明白它是什么以及为什么是“MAP”>“MAPPARTITIONSINTERNAL”>“WHOLESTAGECODEGEN”

当我运行包含“inferschema”选项的命令为 TRUE 时，将创建 2 个阶段：

spark.read.format("csv").option("header", "true").option("inferSchema", true).load("/home/user/test.csv") 每个阶段都有自己的DAG

第一阶段 DAG：

第 2 阶段 DAG：

任何机构都可以请帮助我，为什么当推断模式为 TRUE 时它会创建两个阶段，并且我可以从那里获得“DESERIALIZETOOBJECT”>“MAP”等阶段中提到的术语详细说明。

等待有助于详细了解 DAG 的有价值的输入，关于为什么在 JOB 7 中它正在执行多个“MAP PARTITIONS”然后是“DESERIALIZETOOBJECT”然后是“WHOLESTAGECODEGEN”，然后又在 JOB 8 中它正在执行“MAP”>” MAPPARTITIONSINTERNAL" > "WHOLESTAGECODEGEN"

apache-spark - spark中的作业执行

0 回答 0

Related

Reference