0

我有一些带有大量连接和聚合的 pyspark 代码。我已经启用了 spark ui,并且一直在深入研究事件计时、工作阶段和 dag 可视化。我可以找到昂贵部件的任务 ID 和执行者 ID。有没有人知道如何将 spark ui 输出(任务 ID、执行程序 ID)中昂贵的部分与我的 pyspark 代码的一部分联系起来?就像我从输出中可以看出,昂贵的部分是由我所有的连接中的大量洗牌操作引起的,但是确定哪个连接是罪魁祸首真的很方便。

4

1 回答 1

0

您最好的方法是开始在代码的各个部分对数据框应用操作。选择一个地方,将其写入文件,读回,然后继续。这将使您能够识别瓶颈。您也可以在 UI 中观察到一小部分执行。

于 2021-06-15T05:38:15.073 回答