1

我在 spark-shell 中运行一个 spark sql 作业,该作业从 parquet 文件创建一个表。

在驱动节点的 Web UI 上,一个任务有很多指标:

持续时间/调度程序延迟/任务反序列化时间/GC时间/结果序列化时间/获取结果时间/写入时间

我想知道从磁盘读取 parquet 块真正花费了多少时间(不包括反序列化、元组重建、随机写入等时间)。

我该如何计算呢?是

读取时间=持续时间-调度程序延迟-任务反序列化时间-GC时间-结果序列化时间-获取结果时间-写入时间?

谢谢,

4

0 回答 0