apache-spark - 为什么我会在一次读取中看到 Spark UI 中的两个作业？

Question

我正在尝试运行以下脚本来加载具有 24k 记录的文件。有什么理由让我在 Spark UI 中看到两个单次加载作业。

代码


from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName("DM")\
    .getOrCreate()


trades_df = spark.read.format("csv")\
    .option("header", "true")\
    .option("inferSchema", "true")\
    .load("s3://bucket/source.csv")

trades_df.rdd.numPartitions() 为 1

火花用户界面图像

score 0 · Accepted Answer

这是因为自从您启用了 inferSchema 以来，spark 两次读取 csv 文件。

在此处def csv(csvDataset: Dataset[String]): DataFrame阅读spark 的 github repo 上的函数评论。

apache-spark - 为什么我会在一次读取中看到 Spark UI 中的两个作业？

1 回答 1

Related

Reference