我使用以下代码创建了粘合作业以从 oracle 读取数据。
WhereQuery="select * from test where dated>==CURRENT_DATE-4
connection_oracle11_options = {
"url": URL,
"dbtable": tableName,
"user": USERNAME,
"password": PASSWORD,
"query": WhereQuery,
"hashfield": "testID",
"hashpartitions": '100'
}
transaction_item_df = glueContext.create_dynamic_frame.from_options(connection_type="oracle", connection_options=connection_oracle11_options)
如果我使用查询选项,则需要 8 小时,如果我不执行查询,则需要 45 分钟,查询选项是否正确?
我的数据大小是 318049228,我使用的是 Worker 类型:G1.X 和工人数量:100 和“hashpartitions”:'100' 它需要 45 分钟,hashpartitions 和工人数量之间的关系是什么?