0

我有兴趣设置一些自动化作业,这些作业将定期从我们的 Redshift 实例中导出数据并将其存储在 S3 上,理想情况下,它将通过在 Redshift Spectrum 中运行的外部表重新回到 Redshift。我不确定如何最好地处理的一件事是,我正在使用的某些表会随着时间的推移而改变模式。

我能够毫无问题地将数据从 Redshift 卸载到 S3,而且我还能够在 Redshift 中设置一个外部表,并使 S3 数据可用于查询。但是,我不确定如何最好地处理我们的表会随着时间的推移更改列的情况。例如,对于我们通过 Segment 捕获的某些事件数据,添加的特征将导致 Redshift 表上的新列在以前的 UNLOAD 中不存在。在 Redshift 中,在列存在之前进入的数据的列值只会导致 NULL 值。

随着时间的推移,处理这种数据结构逐渐变化的最佳方法是什么?如果我只是更新外部表中的新字段,Redshift 将能够处理这些字段不一定存在于较旧的 UNLOAD 上的事实,还是我需要走其他路线?

4

0 回答 0