apache-spark-sql - 如何配置 ParquetFileReader 并行度？

翻译自：https://stackoverflow.com/questions/37286349 2016-05-17T21:14:07.280

285 次

我正在尝试将分区的 spark sql 数据帧（大约 300 个分区）保存到 hdfs，它真的很慢：

join_table.write.mode('overwrite').partitionBy(target).save(path_out)

我认为这可能是由于：

INFO ParquetFileReader：以并行方式启动操作：5

关于如何配置这种并行性的任何想法？此链接可能会有所帮助：https : //forums.databricks.com/questions/1097/stall-on-loading-many-parquet-files-on-s3.html 但我不知道如何在 Pyspark 中使用 newAPIHadoopFile。

apache-spark-sql - 如何配置 ParquetFileReader 并行度？

0 回答 0

Related

Reference