是否有可能在 Spark Streaming 中的 DStream 内的每个微批次结束时执行一些操作?我的目标是计算 Spark 处理的事件数。Spark Streaming 给了我一些数字,但平均值似乎也总结了零值(因为一些微批次是空的)。
例如,我确实收集了一些统计数据并希望将它们发送到我的服务器,但是收集数据的对象只存在于某个批次期间,并且从头开始为下一批进行初始化。我希望能够在批处理完成并且对象消失之前调用我的“完成”方法。否则,我会丢失尚未发送到服务器的数据。
是否有可能在 Spark Streaming 中的 DStream 内的每个微批次结束时执行一些操作?我的目标是计算 Spark 处理的事件数。Spark Streaming 给了我一些数字,但平均值似乎也总结了零值(因为一些微批次是空的)。
例如,我确实收集了一些统计数据并希望将它们发送到我的服务器,但是收集数据的对象只存在于某个批次期间,并且从头开始为下一批进行初始化。我希望能够在批处理完成并且对象消失之前调用我的“完成”方法。否则,我会丢失尚未发送到服务器的数据。