java - Flink - 结构化作业以最大化吞吐量

Question

我有 4 种类型的 kafka 主题和每种类型的 65 个主题。目标是对数据进行一些简单的窗口聚合并将其写入数据库。

拓扑将类似于：

kafka -> 窗口 -> 减少 -> 数据库写入

在这个组合中的某个地方，我想要/需要做一个联合- 或者可能是几个（取决于每次组合多少主题）。

主题中的数据流范围从 10K 到 >200K 消息/分钟。

我有一个具有 30 个核心/节点的四节点 flink 集群。如何构建这些拓扑来分散负载？

score 3 · Accepted Answer

我写这个答案是假设 65 个相同类型的主题中的每一个都包含相同类型的数据。

这个问题最简单的解决方案是更改 Kafka 设置，使您有 4 个主题，每个主题有 65 个分区。然后程序中有 4 个数据源，具有高并行度 (65)，这自然分布在整个集群中。

如果无法更改设置，我看到您可以做两件事：

一种可能的解决方案是创建 FlinkKafkaConsumer 的修改版本，其中一个源可以使用多个主题（而不是一个主题的多个分区）。通过这种更改，它的工作方式几乎就像您使用许多分区而不是许多主题一样。如果你想使用这个解决方案，我会 ping 邮件列表以获得一些支持。无论如何，这将是对 Flink 代码的一个有价值的补充。
您可以为每个源分配一个单独的资源组，这将为其分配一个专用插槽。你可以通过“env.addSource(new FlinkKafkaConsumer(...)).startNewResourceGroup();”来做到这一点。但在这里，观察结果是您尝试在具有 120 个内核（因此可能有 120 个任务槽）的集群上执行 260 个不同的源。您需要增加插槽数来容纳所有任务。

我认为第一个选项是更可取的选项。

1 回答 1