我在 spark ui 中看到了这个详细信息图:
关于这张图,我有几个问题:
1-与计算时间相比,为什么调度延迟和任务反序列化需要这么长时间?这是否意味着作业优化有问题(使用我的 spark 脚本)?
2- 据我了解,每一行都对应一个执行者(请参阅左列中的 等)1/10.42.3.34
。2/10.42.4.160
每个执行器有 3 个核心,但有些行包含 2 个“彩色条”,而有些行包含 3 个条。这是为什么?每个彩色条都代表特定的核心/任务吗?那为什么有 3 个核心却有 2 个 bar 呢?这是否意味着 1 个核心根本不起作用?
3- 连续的彩色条永远不会从同一位置开始。这意味着什么?这是否告诉我们,虽然并行运行,但任务不会同时启动?
4- 同样适用于小节的结尾。
5- 为什么有些条有黄色结尾(表示随机写入时间),而另一些则没有?
6- 为什么有些柱有紫色结尾(表示结果序列化时间)而有些没有?
7- 为什么有些条形以黄色结尾,然后是紫色(随机写入和序列化)?那里发生了什么?
8- 在图表的顶部它说 2 秒Across all Tasks
。那是怎么计算的?当我查看任务持续时间时,我没有看到花费超过几毫秒的任务。
我相信理解这张图非常重要,因此我们不胜感激。干杯。