apache-flink - 需要关于从 Flink DataStream Job 迁移到 Flink Stateful Functions 3.1 的建议

Question

我有一个基于 Flink Data Stream 的工作 Flink 作业。我想基于 Flink 有状态函数 3.1重写整个作业。

我目前的 Flink Job 的功能是：

我已经阅读了文档并得到了一些想法。我的计划是：

不再需要处理 Kafka，Kafka Ingress（https://nightlies.apache.org/flink/flink-statefun-docs-release-3.0/docs/io-module/apache-kafka/）处理它
基于 java SDK 重写我的工作。合并很简单。但是窗口函数呢？
也许我应该使用带有 TTL 的持久状态来模拟窗口函数行为
Egress forMinIO不在 default 列表中Flink I/O Connectors，因此我需要根据https://nightlies.apache.org/flink/flink-statefun-docs-release-3.0/docs/io-module/Flink I/O Connector为自己编写自定义flink 连接器/MinIO
我想避免Embedded module，因为它可以防止缩放。自动缩放是我要迁移到的关键原因Flink stateful functions

我对我的计划没有信心。我的理解/计划有什么问题吗？

有什么我应该参考的最佳实践吗？

我想在重写期间摆脱 windows，但我不知道如何

score 1 · Accepted Answer

背景：使用 KeyedProcessFunctions 而不是 Windows 来组装相关事件

使用 DataStream API，窗口不是将相关事件组合在一起的良好构建块。问题是窗口在与时钟对齐的时间开始和结束，而不是与事件对齐。因此，即使两个相关事件仅相隔几毫秒，它们也可能被分配到不同的窗口。

一般来说，使用键控流程函数来实现这种用例会更直接，并根据需要使用计时器来处理丢失或延迟的事件。

使用 Statefun API 执行此操作

您可以使用上述相同的模式。函数 id 将扮演与 key 相同的角色，您可以使用延迟消息而不是计时器：