我正在尝试将分区的 spark sql 数据帧(大约 300 个分区)保存到 hdfs,它真的很慢:
join_table.write.mode('overwrite').partitionBy(target).save(path_out)
我认为这可能是由于:
INFO ParquetFileReader:以并行方式启动操作:5
关于如何配置这种并行性的任何想法?此链接可能会有所帮助:https : //forums.databricks.com/questions/1097/stall-on-loading-many-parquet-files-on-s3.html 但我不知道如何在 Pyspark 中使用 newAPIHadoopFile。