我正在使用 Apache Spark,并且指标 UI(在 4040 上找到)非常有用。
我想知道是否可以在此 UI 中添加自定义指标、自定义任务指标,但也可以添加自定义 RDD 指标。(就像为 RDD 转换执行时间一样)
将自定义指标按流批处理作业和任务分组可能会很好。
我见过TaskMetrics对象,但它被标记为 dev api,它看起来对输入或输出源很有用,不支持自定义值。
有火花方法吗?还是替代方案?
我正在使用 Apache Spark,并且指标 UI(在 4040 上找到)非常有用。
我想知道是否可以在此 UI 中添加自定义指标、自定义任务指标,但也可以添加自定义 RDD 指标。(就像为 RDD 转换执行时间一样)
将自定义指标按流批处理作业和任务分组可能会很好。
我见过TaskMetrics对象,但它被标记为 dev api,它看起来对输入或输出源很有用,不支持自定义值。
有火花方法吗?还是替代方案?
您可以使用 Spark 中内置的共享变量支持 [1]。我经常用它们来实现类似的东西。
[1] http://spark.apache.org/docs/latest/programming-guide.html#shared-variables