4

我们通过 API-Gateway > Kinesis Streams > Lambda > FireHose > Redshift Tables 使用所有分析源。

AWS Lambda 是我们的转换足迹,它接受 Kinesis 流记录根据上下文更改分析事件并将其拖放到 FireHouse 以将其保存到 Redshift DB。

在这个旅程中,我们希望在某些条件下更新 Redshift 记录(基本上是 UPSERT ( Insert | Update ) )。firehose 中是否有任何东西可以避免 redshift 中的重复记录?

4

1 回答 1

1

开箱即用,没有。

如果您要更新的表是 T1,那么您可以做的是:

  • 让 Firehose 将记录转储到另一个表 T2。
  • 运行一个作业,使用 cron 或其他东西,定期从 T2 更新到 T1。使用事务,以避免在运行此查询和 Firehose 到 Redshift 查询时数据变坏。
于 2016-11-21T07:10:13.753 回答