1

我想在我的 scala 代码中获得“已完成任务的摘要指标”。此信息可在 Spark webUI 中找到:

spark webUI 页面截图

4

1 回答 1

1

Web UI 只是一堆SparkListener,它们保存状态并提供有关 Spark 应用程序状态的许多有用的统计信息。

这就是为什么驱动程序经常需要比您预期更多的内存——用于 Web UI 的内部状态。

火花监听器

我想在我的 Scala 代码中获得“已完成任务的摘要指标”。

编写您自己的SparkListeners并拦截您喜欢的事件。

对于“已完成任务的摘要指标”之类的统计信息,您必须查看Spark 的源代码并退后一步查看摘要指标内部状态的构建内容和方式。

REST API

您还可以使用http://localhost:4040/api/v1/applications/[appId]/stages中公开的 REST API 以编程方式访问“已完成任务的摘要指标”数据。

您想要的数据是“阶段数据”,每个阶段都可以使用stageId路径参数和details查询参数,即

http://localhost:4040/api/v1/applications/[appId]/stages/[stageId]?details

或者

http://localhost:4040/api/v1/applications/[appId]/stages/[stageId]?details=true
于 2017-12-13T09:26:41.077 回答