我正在尝试运行以下脚本来加载具有 24k 记录的文件。有什么理由让我在 Spark UI 中看到两个单次加载作业。
代码
from pyspark.sql import SparkSession
spark = SparkSession\
.builder\
.appName("DM")\
.getOrCreate()
trades_df = spark.read.format("csv")\
.option("header", "true")\
.option("inferSchema", "true")\
.load("s3://bucket/source.csv")
trades_df.rdd.numPartitions() 为 1