我正在尝试将所有表从模式(PostgreSQL,50 多个表)复制到 Amazon S3。
做这个的最好方式是什么?我能够创建 50 种不同的复制活动,但是有没有一种简单的方法可以复制模式中的所有表或编写一个管道和循环?
我正在尝试将所有表从模式(PostgreSQL,50 多个表)复制到 Amazon S3。
做这个的最好方式是什么?我能够创建 50 种不同的复制活动,但是有没有一种简单的方法可以复制模式中的所有表或编写一个管道和循环?
我认为旧方法是:
1. Unload your data from PostgreSQL to a CSV file first using something like psql
2. Then just copy the csv to S3
但是,AWS 提供了 ua 脚本来执行此操作,RDSToS3CopyActivity
请参阅AWS 的此链接
因为你有大量的表。与 AWS Data Pipeline 相比,我建议使用 AWS Glue。Glue 易于配置,具有爬虫等,使您可以灵活地选择列、定义等。此外,AWS Glue 中的底层作业是 pyspark 作业,可以很好地扩展,为您提供非常好的性能。