我是 AWS 新手,具有数据仓库 ETL 背景。我们目前正在使用 AWS 服务 Data Lake 迁移到云,并尝试使用 sqoop 作业将数据从我们的外部源 RDBMS 系统加载到 Amazon s3 登陆层(Bucket),然后使用 Informatica BDM 加载到 Amazon S3 中的不同层(Bucket)。
从外部源系统获取数据的频率是每天。我不确定我们如何在 S3 中实现 Delta 负载/SCD 类型。在 Amazon S3 存储桶中创建对象后是否有可能更改对象,或者我们是否必须继续创建日常负载的副本作为 s3 存储桶中的对象?
我了解 Amazon 为我们提供了数据库选项,但我们被指示将数据加载到 Amazon S3 中。