我正在设置一个 Apache Spark 长时间运行的流式传输作业,以使用 InputDStream 执行(非并行)流式传输。
我想要实现的是,当队列中的批处理花费太长时间(基于用户定义的超时)时,我希望能够跳过该批处理并完全放弃它 - 并继续执行其余部分。
我无法在 spark API 或在线找到解决此问题的方法——我研究了使用 StreamingContext awaitTerminationOrTimeout,但这会在超时时杀死整个 StreamingContext,而我要做的只是跳过/杀死当前批次。
我也考虑过使用 mapWithState,但这似乎不适用于这个用例。最后,我正在考虑设置一个 StreamingListener 并在批处理开始时启动一个计时器,然后在达到某个超时阈值时让批处理停止/跳过/杀死,但似乎仍然没有办法杀死批处理。
谢谢!