1

我正在从事数据集成项目,我们需要使用 kafka 业务事件流,但要生成每日和每月报告。我们需要某种用于流的状态存储。到目前为止,我们头脑风暴的方法是:使用 ktable 存储事件并让(一对多)消费者查询数据以进行进一步的 ETL 处理或使用基于键值的(如 dynamoDB)转储事件并让消费者使用它。

我们当然不想拥有事件,并且存储应该在报告完成后消失。我有点担心每月处理存储的数据量,因为当我查看 kafka 主题一周的事件时,它们在 GB 的范围内。

我对这个问题空间相对较新,因此需要帮助来考虑效率和可扩展性。此外,对于未来的用例来说,这不会成为反模式。

4

0 回答 0