0

我对 spark 非常陌生,并试图使用以下命令检查 spark UI 中的 DAG 创建:

当我使用命令读取简单的 csv 文件时

val df = spark.read.format("csv").option("header", "true").load("/home/user/test.csv") then in spark only 1 STAGE is creating with DAG as :

在此处输入图像描述

而且我不明白它是什么以及为什么是“MAP”>“MAPPARTITIONSINTERNAL”>“WHOLESTAGECODEGEN”

当我运行包含“inferschema”选项的命令为 TRUE 时,将创建 2 个阶段:

spark.read.format("csv").option("header", "true").option("inferSchema", true).load("/home/user/test.csv") 每个阶段都有自己的DAG

第一阶段 DAG:

在此处输入图像描述

第 2 阶段 DAG: 在此处输入图像描述

任何机构都可以请帮助我,为什么当推断模式为 TRUE 时它会创建两个阶段,并且我可以从那里获得“DESERIALIZETOOBJECT”>“MAP”等阶段中提到的术语详细说明。

等待有助于详细了解 DAG 的有价值的输入,关于为什么在 JOB 7 中它正在执行多个“MAP PARTITIONS”然后是“DESERIALIZETOOBJECT”然后是“WHOLESTAGECODEGEN”,然后又在 JOB 8 中它正在执行“MAP”>” MAPPARTITIONSINTERNAL" > "WHOLESTAGECODEGEN"

4

0 回答 0