我正在探索 AWS Kinesis 的数据处理要求,用基于流的方法替换旧的批处理 ETL 处理。
该项目的关键要求之一是能够在以下情况下重新处理数据
- 发现并修复了一个错误,并重新部署了应用程序。数据需要从一开始就重新处理。
- 添加了新功能,并且需要全部或部分重新处理历史记录。
Kafka 的场景在这里得到了很好的记录 - https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Streams+Data+%28Re%29Processing+Scenarios。
我在 Kinesis 中看到了基于时间戳的 ShardIterator,我认为可以使用 Kinesis API 构建类似 Kafka 的重置工具,但如果这样的东西已经存在,那就太好了。即使没有,向解决过类似问题的人学习也是件好事。
那么,是否有人知道 Kinesis 中可用于执行此操作的任何现有资源、模式和工具?