我有一个胶水 ETL 作业,它将数据写入本地 postgreSql 数据库。我无法在胶水方法中找到一个有效的选项来使用 jdbc 连接从同一数据库中读取数据。
以下是现有的方法:
- 从 S3(csv 文件)读取数据 - 使用爬虫 - 能够查看数据目录中的数据。
- 使用 jdbc url、用户名、密码和其他所需配置创建了一个胶水数据目录连接“connection-on-premise-postgre”。
- 粘合 ETL jobv 以将数据从目录表加载到本地 postgresql 数据库表
#### context creation and other preceeding stuff ###########
datasource0 = glueContext.create_dynamic_frame.from_catalog(database="default", table_name="my_data")
output_data = glueContext.write_dynamic_frame.from_jdbc_conf(frame=datasource0,
catalog_connection="connection-on-premise-postgre",
connection_options={"database": "my_db",
"dbtable": "my_table"},
redshift_tmp_dir=args["TempDir"],
transformation_ctx="output_data")
我需要使用上面“connection-on-premise-postgre”上使用的相同连接将数据从另一个本地表读取到 AWS 粘合作业
请让我知道如何做到这一点。我尝试使用选项创建数据框,但无法正确配置参数。