我有一些带有大量连接和聚合的 pyspark 代码。我已经启用了 spark ui,并且一直在深入研究事件计时、工作阶段和 dag 可视化。我可以找到昂贵部件的任务 ID 和执行者 ID。有没有人知道如何将 spark ui 输出(任务 ID、执行程序 ID)中昂贵的部分与我的 pyspark 代码的一部分联系起来?就像我从输出中可以看出,昂贵的部分是由我所有的连接中的大量洗牌操作引起的,但是确定哪个连接是罪魁祸首真的很方便。
问问题
31 次