1

我使用以下代码创建了粘合作业以从 oracle 读取数据。

WhereQuery="select * from test where dated>==CURRENT_DATE-4
connection_oracle11_options = {
    "url": URL,
    "dbtable": tableName,
    "user": USERNAME,
    "password": PASSWORD,
    "query": WhereQuery,
    "hashfield": "testID",
    "hashpartitions": '100'
    }
transaction_item_df = glueContext.create_dynamic_frame.from_options(connection_type="oracle", connection_options=connection_oracle11_options)

如果我使用查询选项,则需要 8 小时,如果我不执行查询,则需要 45 分钟,查询选项是否正确?

我的数据大小是 318049228,我使用的是 Worker 类型:G1.X 和工人数量:100 和“hashpartitions”:'100' 它需要 45 分钟,hashpartitions 和工人数量之间的关系是什么?

4

0 回答 0