我有大约 250 个文件夹。一天中的每个文件夹。每个文件夹包含 24 个 parquet 文件。我需要全部阅读它们,在它们上运行一个函数,并在函数更改后编写它们。
写作时,我这样做:
df
.repartition('date)
.write
.partitionBy("date")
.mode(SaveMode.Overwrite)
.parquet(outputPath)
但这会将原始拆分“丢失”为每个日期 24 个部分,并且每个日期写入一个文件。有没有办法把每天分成 n 个部分?