0

我们计划使用 AWS 红移频谱从另一个 AWS 账户的 S3 获取数据。但 Source 告知桶密钥每天都会更改,并且最新数据将在桶密钥位置以最新时间戳提供。谁能建议创建这个外部表的最佳方法是什么?

4

1 回答 1

0

Spectrum 中的外部表可以配置为指向 S3 中的前缀(类似于普通文件系统中的文件夹),或者您可以使用清单文件来指定该表应包含的文件的确切列表(它们甚至可以驻留在不同的 s3 存储桶)。

因此,您必须每天创建表并将其指向正确的位置。如果所有文件都以相同的 s3 前缀结尾,则必须使用清单文件来指定当前文件。

与问题不直接相关的提示: 您还可以做的是每天创建名称中带有时间戳的表,并每天创建一个指向最新表的视图。这样就可以很容易地查看历史数据,或者您可以将这些数据用于例如。机器学习 - 将输入固定到不可变的数据版本,以便您可以可重复地获取训练数据 - 但这当然取决于您的要求。

于 2019-03-25T21:54:16.457 回答