我目前正在开发一个使用 Apache Beam 和 Flink 作为执行引擎的管道。作为该过程的一部分,我从 Kafka 读取数据并执行一系列转换,包括连接、聚合以及对外部数据库的查找。
这个想法是我们希望在执行聚合时与 Flink 具有更高的并行性,但最终合并数据并减少写入 DB 的进程数量,以便目标 DB 可以处理它(例如说我想要一个聚合的并行度为 40,但写入目标数据库时只有 10)。
我们有什么办法可以在 Beam 中做到这一点吗?
我目前正在开发一个使用 Apache Beam 和 Flink 作为执行引擎的管道。作为该过程的一部分,我从 Kafka 读取数据并执行一系列转换,包括连接、聚合以及对外部数据库的查找。
这个想法是我们希望在执行聚合时与 Flink 具有更高的并行性,但最终合并数据并减少写入 DB 的进程数量,以便目标 DB 可以处理它(例如说我想要一个聚合的并行度为 40,但写入目标数据库时只有 10)。
我们有什么办法可以在 Beam 中做到这一点吗?