2

我们有一个用例,其中来自不同用户的消息数据被发送到 SQS,作为一个数据团队,我们希望订阅该队列并将数据按时间分区放入 S3,以便我们可以在他们。

使用这些消息并将它们写入 S3 的最佳方式是什么?

我想到的是使用 AWS lambda 将这些消息放入 Firehose,然后使用 Firehose 作为缓冲区,一旦数据在特定时间段(比如说一个小时)内可用,使用 Firehose 将其写入 S3拼花格式?

还有其他解决方案吗?也许使用 AWS Glue 或 Data Pipeline?

4

1 回答 1

1

AWS Kinesis Firehose 现在支持以无服务器方式将 JSON 转换为 Parquet(或 ORC) - 请参阅此处了解详细信息https://docs.aws.amazon.com/firehose/latest/dev/record-format-conversion.html

于 2021-03-11T14:31:13.907 回答