对于 shuffle 动作,我看到同一个 executor 的核心处理的数据不平衡,当然耗时最长的会减慢整个过程的时间。
所以我想知道是否可以进行一些修改,这样数据将在核心之间平均共享。
我在 aws emr 和 s3 上使用 Spark 2.4。
对于 shuffle 动作,我看到同一个 executor 的核心处理的数据不平衡,当然耗时最长的会减慢整个过程的时间。
所以我想知道是否可以进行一些修改,这样数据将在核心之间平均共享。
我在 aws emr 和 s3 上使用 Spark 2.4。