我想在 AWS S3 中构建一个数据湖,并问自己如何使用 CDC。我想避免从源加载整个数据,而且我想避免目标中的重复。是否有一些行之有效的方法来解决这个问题?
问问题
341 次
1 回答
0
您可以参考以下博客:
https://aws.amazon.com/blogs/big-data/loading-ongoing-data-lake-changes-with-aws-dms-and-aws-glue/
重复数据删除由 AWS Glue 通过在原始数据上运行作业来完成。这会将数据转储到另一个存储桶,该存储桶将作为源数据库的镜像复制。
于 2021-02-02T20:27:26.510 回答