2

spark UI 有一个 SQL 选项卡。它可以将查询详细信息显示为 DAG

https://www.cloudera.com/documentation/enterprise/5-9-x/topics/operation_spark_applications.html

应用程序完成后,DAG 还会使用统计信息注释其节点。例如,

number of output rows: 155,418,058

peak memory total (min, med, max): 
24.1 GB (704.0 MB, 704.0 MB, 704.0 MB)

aggregate time total (min, med, max): 
15.6 m (20.8 s, 25.5 s, 42.1 s)

Exchange data size total (min, med, max): 
1350.1 MB (2.2 MB, 2.3 MB, 2.3 MB)

Spark 有任何 API 来获取指标吗?Spark 具有可通过 RESTful API 访问的https://spark.apache.org/docs/latest/monitoring.html#executor-task-metrics 。Spark UI 上的 stage 选项卡还显示了每个任务的“Summary Metrics”。然而

1) 我不确定如何将任务 ID 与查询 DAG 上的 RDD 或节点相关联

2) Peak Execution Memory 指标始终为 0,而我们可以看到 SQL 选项卡可以显示

peak memory total (min, med, max): 
24.1 GB (704.0 MB, 704.0 MB, 704.0 MB)

另一个问题是如何读取 DAG 节点上的指标。例如,

peak memory total (min, med, max): 
24.1 GB (704.0 MB, 704.0 MB, 704.0 MB)

节点的最小值、中值、最大值是多少?它的值远小于总的24.1G...

4

0 回答 0