1

我有一个用 python apache-beam 编写的管道。它将 800,000 个时间戳数据窗口化为每 1 秒重叠的 2 秒窗口。我的元素可能有不同的键。

当它执行 groupBy 时,需要 3 个小时才能完成。我使用 10 个工作人员部署在云数据流中。当我增加工人数量时,处理速度并没有显着提高。为什么这种转变会成为我的管道的瓶颈?

4

1 回答 1

0

总结 jkff 和其他人的答案:

管道似乎受到单个非常大的键的限制。您可以使用常规 Java 日志记录并查看工作日志(例如,在 processElement() 中测量 DoFn 的处理时间,如果超过阈值则记录下来),但不幸的是,我们还没有提供更高级别的工具来调试“热键”问题。

您还可以打开自动缩放,以便该服务至少可以关闭未使用的工作人员,这样您就不会为他们产生费用。

于 2017-05-04T17:48:12.113 回答