0

spark 会根据输入文件的大小自动决定分区的数量。我有两个问题:

我可以指定分区的数量而不是让火花决定多少分区吗?

重新分区时洗牌有多糟糕?演出真的很贵吗?我的情况是我需要重新分区为“1”才能写入一个 Parquet 文件,分区为“31”。有多糟糕?为什么?

4

2 回答 2

0

不能这样做,分区数由文件大小决定。

于 2019-03-27T22:09:28.970 回答
-1

重新分区和合并是用于在读取数据后对数据进行重新分区的两个函数。

于 2018-11-19T07:40:15.470 回答