我正在尝试从 ec2 实例上的 mysql 数据库中提取表到 s3 以在 redshift 中查询。我当前的管道是我使用 aws 胶水爬虫爬取 mysql 数据库表以获取数据目录中的架构。然后我设置了一个 aws etl 作业来将数据拉入一个 s3 存储桶。然后我再次使用另一个爬虫爬取 s3 存储桶中的数据,以将 s3 存储桶中的数据的架构获取到数据目录中,然后在 redshift 查询窗口中运行下面的脚本以将架构拉入 redshift。好像步骤很多。有没有更有效的方法来做到这一点?例如,有没有一种方法可以重用第一个爬虫的模式,这样我就不必两次爬取数据。它是相同的表和列。
脚本:
create external schema schema1
from data catalog database 'database1'
iam_role 'arn:aws:iam::228276746111:role/sfada'
region 'us-west-2'
CREATE EXTERNAL DATABASE IF NOT EXISTS;