1

我正在尝试使用 AWS Glue 将数据从 Redshift 实例(在 VPC 中)传输到 S3 存储桶。为此,我创建了一个与 Redshift 的 JDBC 连接。

爬虫成功地从 Redshift 获取模式信息到数据目录。但是当我运行 ETL 作业时,它无法获取数据并显示“资源不可用”

  1. 我是否需要为 Glue 配置 NAT 才能连接到 Redshift?(目前它没有 NAT)
  2. 即使没有 NAT,爬虫如何能够从 Redshift 读取模式信息?
4

2 回答 2

0

Redshift 在您的 VPC 中。Glue 在您的 VPC 内部。S3 不是。在大多数情况下,默认情况下访问 S3 需要访问 Internet。

要访问 S3 中的数据,您需要一个 NAT 网关、一个 NAT 实例或一个S3 VPC 端点来为 VPC 内的 S3 流量带来一个终止点。

于 2017-08-23T23:19:38.693 回答
0

对于遇到此问题的任何人来说,这仍然是一个持续存在的问题。对于我的设置,它是 RDS 连接的子网所在的可用区,但据我了解,这适用于任何连接类型。

“修复”是:

  1. AWS 控制台 > Glue > 连接 > 编辑连接 > 查看连接使用的子网。
  2. AWS 控制台 > VPC > 子网 > 识别(或创建)不同区域中的子网。
  3. AWS 控制台 > Glue > 连接 > 编辑连接 > 切换以使用步骤 2 中的子网。
  4. 运行作业。

如果作业仍然因资源不可用而失败,请重复此操作直至其正常工作。

于 2019-08-23T14:34:26.783 回答