1

我正在配置 AWS 管道以使用 JSON S3 文件中的数据加载红移表。

我正在使用 RedshiftActivity,一切都很好,直到我尝试配置 KEEP_EXISTING 加载方法。我真的不想在每次加载时截断我的表,而是保留现有信息并添加新记录。

Redshift 活动似乎需要在表中定义 PRIMARY KEY 才能工作(OK)......现在它还要求我配置 DISTRIBUTION KEY,但我对 EVEN 分发感兴趣,似乎 DISTRIBUTION KEY 不能与 EVEN 分发样式一起使用.

我可以使用分发密钥模拟 EVEN 分发吗?

谢谢。

4

1 回答 1

1

在 Redshift 中创建表时,我不关心主键。对于 distkey,理想情况下,您希望选择其值随机分布的字段。

在你的增量插入的情况下,我通常做的只是使用 SQLActivity 将数据从 s3 复制到 Redshift 中的临时表。然后我根据业务逻辑执行更新/插入/去重和任何步骤。最后我删除了临时表。完毕。

于 2015-09-04T18:03:18.133 回答