amazon-s3 - 在 AWS 上实施 cdc 和重复数据删除

Question

我想在 AWS S3 中构建一个数据湖，并问自己如何使用 CDC。我想避免从源加载整个数据，而且我想避免目标中的重复。是否有一些行之有效的方法来解决这个问题？

score 0 · Accepted Answer

您可以参考以下博客：

https://aws.amazon.com/blogs/big-data/loading-ongoing-data-lake-changes-with-aws-dms-and-aws-glue/

重复数据删除由 AWS Glue 通过在原始数据上运行作业来完成。这会将数据转储到另一个存储桶，该存储桶将作为源数据库的镜像复制。

1 回答 1