我正在尝试使用 AWS Glue 将数据从 Redshift 实例(在 VPC 中)传输到 S3 存储桶。为此,我创建了一个与 Redshift 的 JDBC 连接。
爬虫成功地从 Redshift 获取模式信息到数据目录。但是当我运行 ETL 作业时,它无法获取数据并显示“资源不可用”
- 我是否需要为 Glue 配置 NAT 才能连接到 Redshift?(目前它没有 NAT)
- 即使没有 NAT,爬虫如何能够从 Redshift 读取模式信息?
我正在尝试使用 AWS Glue 将数据从 Redshift 实例(在 VPC 中)传输到 S3 存储桶。为此,我创建了一个与 Redshift 的 JDBC 连接。
爬虫成功地从 Redshift 获取模式信息到数据目录。但是当我运行 ETL 作业时,它无法获取数据并显示“资源不可用”
Redshift 在您的 VPC 中。Glue 在您的 VPC 内部。S3 不是。在大多数情况下,默认情况下访问 S3 需要访问 Internet。
要访问 S3 中的数据,您需要一个 NAT 网关、一个 NAT 实例或一个S3 VPC 端点来为 VPC 内的 S3 流量带来一个终止点。
对于遇到此问题的任何人来说,这仍然是一个持续存在的问题。对于我的设置,它是 RDS 连接的子网所在的可用区,但据我了解,这适用于任何连接类型。
“修复”是:
如果作业仍然因资源不可用而失败,请重复此操作直至其正常工作。