1

我想在 AWS S3 中构建一个数据湖,并问自己如何使用 CDC。我想避免从源加载整个数据,而且我想避免目标中的重复。是否有一些行之有效的方法来解决这个问题?

4

1 回答 1

0

您可以参考以下博客:

https://aws.amazon.com/blogs/big-data/loading-ongoing-data-lake-changes-with-aws-dms-and-aws-glue/

重复数据删除由 AWS Glue 通过在原始数据上运行作业来完成。这会将数据转储到另一个存储桶,该存储桶将作为源数据库的镜像复制。

于 2021-02-02T20:27:26.510 回答