spark 会根据输入文件的大小自动决定分区的数量。我有两个问题:
我可以指定分区的数量而不是让火花决定多少分区吗?
重新分区时洗牌有多糟糕?演出真的很贵吗?我的情况是我需要重新分区为“1”才能写入一个 Parquet 文件,分区为“31”。有多糟糕?为什么?
spark 会根据输入文件的大小自动决定分区的数量。我有两个问题:
我可以指定分区的数量而不是让火花决定多少分区吗?
重新分区时洗牌有多糟糕?演出真的很贵吗?我的情况是我需要重新分区为“1”才能写入一个 Parquet 文件,分区为“31”。有多糟糕?为什么?