apache-kafka - Kafka Streams 在处理时间窗口内排序

Question

我想知道是否有任何方法可以使用 Kafka Streams DSL 或处理器 API 对窗口内的记录进行排序。

想象一下以下情况作为示例（任意一种，但与我需要的相似）：

有一些事件的Kafka主题，比如说用户点击。假设主题有 10 个分区。消息是按键分区的，但每个键都是唯一的，所以它是一种随机分区。每条记录都包含一个用户 ID，稍后用于对流进行重新分区。
我们使用流，并将每条消息发布到另一个主题，通过它的用户 ID 对记录进行分区（通过用户 ID 重新分区原始流）。
然后我们消费这个重新分区的流，我们将消费的记录存储在本地状态存储中，窗口为 10 分钟。特定用户的所有点击总是在同一个分区中，但不保证顺序，因为原始主题有 10 个分区。
我了解Kafka Streams的窗口模型，当新记录进来时时间会提前，但是我需要这个窗口使用处理时间，而不是事件时间，然后当窗口过期时，我需要能够排序缓冲事件，并按顺序将它们发送到另一个主题。

注意：

我知道 Kafka Streams 1.0.0 允许在处理 API 中使用挂钟时间，但我不确定实现我需要的正确方法是什么（更重要的是考虑到上述恢复过程要求）。

score 2 · Accepted Answer

你可以在这里看到我对类似问题的回答： https ://stackoverflow.com/a/44345374/7897191

由于您的消息密钥已经是唯一的，您可以忽略我关于重复数据删除的评论。

现在 KIP-138（挂钟标点语义）已在 1.0.0 中发布，您应该能够毫无问题地实现概述的算法。它使用处理器 API。我不知道仅使用 DSL 的方法。

1 回答 1