目的:
我想加载流数据,然后添加一个键,然后按键计数。
问题:
当我尝试使用流式方法(无界数据)加载和按键分组大尺寸数据时,Apache Beam 数据流管道出现内存错误。因为似乎数据是按分组累积的,并且它不会在触发每个窗口时更早地触发数据。
如果我减小元素大小(元素数量不会改变),它会起作用!因为实际上 group-by step 等待所有数据被分组,然后触发所有新的窗口数据。
我对两者都进行了测试:
梁版本 2.11.0 和 scio 版本 0.7.4
梁版本 2.6.0 和 scio 版本 0.6.1
重新生成错误的方法:
- 读取包含文件名的 Pubsub 消息
- 从 GCS 读取并加载相关文件作为逐行迭代器
- 逐行展平(因此它会生成大约 10,000 个)元素
- 向元素添加时间戳(当前即时时间)
- 创建我的数据的键值(使用一些从 1 到 10 的随机整数键)
- 应用带触发的窗口(在行较小且没有内存问题的情况下会触发大约 50 次)
- 每个键计数(按键分组,然后组合它们)
- 最后,我们应该有大约 50 * 10 个元素来表示按窗口和键的计数(当行大小足够小时成功测试)
管道的可视化(步骤 4 到 7):
按键分组步骤摘要:
如您所见,数据是按组累积的,不会被发出。
窗口代码在这里:
val windowedData = data.applyKvTransform(
Window.into[myt](
Sessions.withGapDuration(Duration.millis(1)))
.triggering(
Repeatedly.forever(AfterFirst.of(
AfterPane.elementCountAtLeast(10),
AfterProcessingTime.pastFirstElementInPane().plusDelayOf(Duration.millis(1)))
).orFinally(AfterWatermark.pastEndOfWindow())
).withAllowedLateness(Duration.standardSeconds(100))
.discardingFiredPanes()
)
错误:
org.apache.beam.runners.dataflow.worker.StreamingDataflowWorker$KeyCommitTooLargeException: Commit request for stage S2 and key 2 is larger than 2GB and cannot be processed. This may be caused by grouping a very large amount of data in a single window without using Combine, or by producing a large amount of data from a single input element.
org.apache.beam.runners.dataflow.worker.StreamingDataflowWorker$KeyCommitTooLargeException.causedBy(StreamingDataflowWorker.java:230)
org.apache.beam.runners.dataflow.worker.StreamingDataflowWorker.process(StreamingDataflowWorker.java:1287)
org.apache.beam.runners.dataflow.worker.StreamingDataflowWorker.access$1000(StreamingDataflowWorker.java:146)
org.apache.beam.runners.dataflow.worker.StreamingDataflowWorker$6.run(StreamingDataflowWorker.java:1008)
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
java.lang.Thread.run(Thread.java:745)
是否有任何解决方案可以通过强制 group-by 发出每个窗口的早期结果来解决内存问题。