在 Samza 和 Kafka Streams 中,数据流处理在处理步骤(在 Samza 中称为“作业”,在 Kafka Streams 中称为“处理器”)的序列/图(在 Samza 中称为“数据流图”,在 Kafka Streams 中称为“拓扑”)中执行).在本问题的其余部分中,我将这两个术语称为工作流和工作人员。
假设我们有一个非常简单的工作流程,由一个工人 A 使用传感器测量并过滤所有低于 50 的值,然后是一个工人 B 接收剩余的测量并过滤所有高于 80 的值。
输入(Kakfa 主题 X)-->(工人 A)-->(工人 B)--> 输出(Kafka 主题 Y)
如果我明白了
- http://samza.apache.org/learn/documentation/0.11/introduction/concepts.html和
- http://docs.confluent.io/3.1.1/streams/architecture.html#parallelism-model
正确地,Samza 和 Kafka Streams 都使用主题分区概念来复制工作流/工作人员,从而为可扩展性目的并行处理。
但:
Samza 将每个工作人员(即作业)分别复制到多个任务(输入流中的每个分区一个)。也就是说,任务是工作流的工作人员的副本。
Kafka Streams 将整个工作流程(即拓扑)一次复制到多个任务(输入流中的每个分区一个)。也就是说,任务是整个工作流程的复制品。
这让我想到了我的问题:
假设只有一个分区:这是否正确,不能在 Kafka Streams 中的两台不同机器上部署工作程序(A)和(B),而这在 Samza 中是可能的?(或者换句话说:在Kafka Streams中是否不可能将单个任务(即拓扑副本)拆分到两台机器上,无论是否有多个分区。)
Kafka Streams 拓扑中的两个后续处理器(在同一个任务中)如何通信?(我知道在 Samza 中,两个后续工作人员(即工作)之间的所有通信都是通过 Kafka 主题完成的,但是由于必须在代码中明确地在 Kafka Streams 中“标记”哪些流必须作为 Kafka 主题发布,所以这不能就是这里的情况。)
Samza 还自动将所有中间流作为 Kafka 主题发布(从而使它们可供潜在客户使用),而 Kafka Streams 只发布那些明确标记的中间和最终流(
addSink
在低级 API 和to
/或through
DSL 中),这是否正确? )?
(我知道 Samza 还可以使用 Kafka 以外的其他消息队列,但这与我的问题并不真正相关。)