2

我正在尝试将分区的 spark sql 数据帧(大约 300 个分区)保存到 hdfs,它真的很慢:

join_table.write.mode('overwrite').partitionBy(target).save(path_out)

我认为这可能是由于:

INFO ParquetFileReader:以并行方式启动操作:5

关于如何配置这种并行性的任何想法?此链接可能会有所帮助:https : //forums.databricks.com/questions/1097/stall-on-loading-many-parquet-files-on-s3.html 但我不知道如何在 Pyspark 中使用 newAPIHadoopFile。

4

0 回答 0