0

我有两个Kafka流,request每个流event都在一个公共字段 requestId(最后两位数)上进行分区。我想加入两个流并写入HDFS或本地filesystem?如何编写一个在加入两者时consumer只考虑相关的高效?partitionsstreams

4

2 回答 2

2

您应该使用Kafka 的 Streams API,Apache Kafka 的流处理库,而不是手写的使用者。要将数据写入 HDFS,您应该使用 Kafka Connect。

要进行连接,请看这个问题:如何管理 Kafka KStream 到 Kstream 窗口连接?

另请查看 Confluent 关于Kafka StreamsKafka Connect的文档以开始使用。如果您还有其他问题,请提出后续问题(阅读手册后:))

于 2017-01-18T17:22:17.673 回答
0

带有 Kafka Connect(用于 HDFS)的 Kafka 流是一个简单的解决方案。但是,必须指出的是,Kafka Connect 的 HDFS 连接器仅适用于 Confluent 的 Kafka 版本。Apache Kafka Connect 仅带有文件写入器,而不带有 HDFS 写入器。

于 2017-01-19T23:50:09.227 回答