performance - 在 Spark Streaming 中的微批处理结束之前执行操作

Question

是否有可能在 Spark Streaming 中的 DStream 内的每个微批次结束时执行一些操作？我的目标是计算 Spark 处理的事件数。Spark Streaming 给了我一些数字，但平均值似乎也总结了零值（因为一些微批次是空的）。

例如，我确实收集了一些统计数据并希望将它们发送到我的服务器，但是收集数据的对象只存在于某个批次期间，并且从头开始为下一批进行初始化。我希望能够在批处理完成并且对象消失之前调用我的“完成”方法。否则，我会丢失尚未发送到服务器的数据。

score 0 · Accepted Answer

也许你可以使用 StreamingListener：

1 回答 1