1

我正在尝试使用 Spark SQL 优化一个程序,该程序基本上是一个巨大的 SQL 查询(连接像 10 个表,有很多案例等)。我更习惯于更多面向 DF-API 的程序,并且这些程序确实更好地显示了不同的阶段。

它的结构很好,我或多或少地理解它。但是我有一个问题,我总是使用 Spark UI SQL 视图来获得有关优化重点的提示。

但是在这种程序中,Spark UI SQL 什么也没显示,这是有原因的吗?(或一种强制它显示的方法)。

我希望看到每个连接/扫描后的输出行数等等......但我只看到一个完整的“WholeStageCodeGen”,用于“解析的逻辑计划”,就像 800 行

我无法显示代码,它有以下“点”:

1- Action triggering it, its "show"(20)
3- Takes like 1 hour of execution (few executors yet)
2- has a persist before the show/action.
3- Uses Kudu, Hive and In-memory tables (registered before this query)
4- Has like 700 lines logical plan

有没有办法改善那里的追踪?(也许禁用 WholeStageCodegen?,但这可能会损害性能......)

这就是我所看到的

这样的事情是我期望看到的......(当然是非常复杂的计划)

谢谢!

4

0 回答 0