7

我正在探索 AWS Kinesis 的数据处理要求,用基于流的方法替换旧的批处理 ETL 处理。

该项目的关键要求之一是能够在以下情况下重新处理数据

  • 发现并修复了一个错误,并重新部署了应用程序。数据需要从一开始就重新处理。
  • 添加了新功能,并且需要全部或部分重新处理历史记录。

Kafka 的场景在这里得到了很好的记录 - https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Streams+Data+%28Re%29Processing+Scenarios

我在 Kinesis 中看到了基于时间戳的 ShardIterator,我认为可以使用 Kinesis API 构建类似 Kafka 的重置工具,但如果这样的东西已经存在,那就太好了。即使没有,向解决过类似问题的人学习也是件好事。

那么,是否有人知道 Kinesis 中可用于执行此操作的任何现有资源、模式和工具?

4

1 回答 1

1

我遇到了想要重新处理 kinesis 处理的记录的情况,我使用 Kinesis-VCR 重新处理 kinesis 生成的记录。

Kinesis-VCR 记录 kinesis 流并维护 kinesis 在给定时间处理的文件的元数据。

稍后,我们可以使用在任何给定时间范围内重新处理/重播事件。

这是相同的github链接。

https://github.com/scopely/kinesis-vcr

让我知道这是否适合您。

谢谢和问候, Srivignesh KN

于 2018-02-22T20:17:42.510 回答