1

我正在尝试运行以下脚本来加载具有 24k 记录的文件。有什么理由让我在 Spark UI 中看到两个单次加载作业。

代码


from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName("DM")\
    .getOrCreate()


trades_df = spark.read.format("csv")\
    .option("header", "true")\
    .option("inferSchema", "true")\
    .load("s3://bucket/source.csv") 

trades_df.rdd.numPartitions() 为 1

火花用户界面图像

4

1 回答 1

0

这是因为自从您启用了 inferSchema 以来,spark 两次读取 csv 文件。

在此处def csv(csvDataset: Dataset[String]): DataFrame阅读spark 的 github repo 上的函数评论。

于 2021-08-05T05:55:14.043 回答