apache-spark - Pyspark Shuffle 写入大小

翻译自：https://stackoverflow.com/questions/58084312 2019-09-24T16:07:52.230

225 次

我在第 2 阶段和第 3 阶段从两个来源读取数据。如您所见，在第 2 阶段，输入大小为 2.8GB，第 3 阶段为 38.3GB。但第 2 阶段的随机写入部分几乎是输入大小的 10 倍, 23.9GB。为什么，对于第 3 阶段，它与输入大小相比要小得多？这对我来说没有任何意义。我想知道为什么它对于 stage2 来说如此之大。它是否正在重新分区，因为它只有 16 个正在读取的分区？

apache-spark - Pyspark Shuffle 写入大小

0 回答 0

Related

Reference