我正在使用 Kafka 来处理日志事件。我对简单的连接器和流转换有 Kafka Connect 和 Kafka Streams 的基本知识。
现在我有一个具有以下结构的日志文件:
timestamp event_id event
日志事件有多个由 event_id 连接的日志行(例如邮件日志)
例子:
1234 1 START
1235 1 INFO1
1236 1 INFO2
1237 1 END
通常有多个事件:
例子:
1234 1 START
1234 2 START
1235 1 INFO1
1236 1 INFO2
1236 2 INFO3
1237 1 END
1237 2 END
时间窗口(在 START 和 END 之间)最长可达 5 分钟。
结果我想要一个像
event_id combined_log
例子:
1 START,INFO1,INFO2,END
2 START,INFO2,END
实现这一目标的正确工具是什么?我试图用 Kafka Streams 解决它,但我可以弄清楚如何..