我有一堆数据存储在 Amazon S3 中的文件中,并计划使用它在 Redshift 中构建一个 Data Vault。我的第一个问题是正确的方法是在 Redshift 中构建 DV 和数据集市,还是我应该将 S3 视为我的数据湖并且只有 Redshift 中的数据集市?
在我的架构中,我目前正在考虑前者(即 S3 Data Lake + Redshift Vault 和 Marts)。但是,我不知道我是否可以直接在 Redshift 中创建 ETL 流程以使用 Vault 中的数据填充集市,或者我是否必须使用 Amazon EMR 来处理 S3 中的原始数据,在那里生成新文件并最后将它们加载到集市中。
所以,我的第二个问题是:ETL 策略应该是什么?谢谢。