amazon-web-services - 如何使用 AWS RedShift Spectrum 为 S3 存储建模以进行查询

Question

usersMySQL 数据库中存在一个表。

我们希望将数据迁移到 Amazon S3 中，以便使用 Amazon Redshift 进行进一步分析。

建议的 S3 数据文件夹/命名约定：

s3://data/users/YYYYMMDD/users-YYYYMMDDHHMMSS.csv

Amazon Redshift 按如下方式加载数据以查询用户的所有行：

create EXTERNAL TABLE redshift_users from s3://data/users

问题：

score 0 · Accepted Answer

要回答您的问题：

您假设新行将自动优先于旧行 - 事实并非如此。您需要在您的数据中添加一个“processed_timestamp”列并在您的查询中处理它 - 您的查询必须弄清楚如何只获取最新的行（我为此使用窗口函数）。
通常，您无法从 S3 中明智地物理删除行。您需要结合上面的#1 来实现一个逻辑删除过程。

1 回答 1