我有两个Kafka
流,request
每个流event
都在一个公共字段 requestId(最后两位数)上进行分区。我想加入两个流并写入HDFS
或本地filesystem
?如何编写一个在加入两者时consumer
只考虑相关的高效?partitions
streams
问问题
3453 次
2 回答
2
您应该使用Kafka 的 Streams API,Apache Kafka 的流处理库,而不是手写的使用者。要将数据写入 HDFS,您应该使用 Kafka Connect。
要进行连接,请看这个问题:如何管理 Kafka KStream 到 Kstream 窗口连接?
另请查看 Confluent 关于Kafka Streams和Kafka Connect的文档以开始使用。如果您还有其他问题,请提出后续问题(阅读手册后:))
于 2017-01-18T17:22:17.673 回答
0
带有 Kafka Connect(用于 HDFS)的 Kafka 流是一个简单的解决方案。但是,必须指出的是,Kafka Connect 的 HDFS 连接器仅适用于 Confluent 的 Kafka 版本。Apache Kafka Connect 仅带有文件写入器,而不带有 HDFS 写入器。
于 2017-01-19T23:50:09.227 回答