我想每天自动化我的配置单元脚本,为了做到这一点,我有一个选项是数据管道。但问题是我正在将数据从 dynamo-db 导出到 s3,并且我正在使用配置单元脚本来操作这些数据。我在 hive-script 中给出这个输入和输出,这是问题开始的地方,因为 hive-activity 必须有输入和输出,但我必须在脚本文件中给出它们。
我正在尝试找到一种方法来自动化这个配置单元脚本并等待一些想法?
干杯,
我想每天自动化我的配置单元脚本,为了做到这一点,我有一个选项是数据管道。但问题是我正在将数据从 dynamo-db 导出到 s3,并且我正在使用配置单元脚本来操作这些数据。我在 hive-script 中给出这个输入和输出,这是问题开始的地方,因为 hive-activity 必须有输入和输出,但我必须在脚本文件中给出它们。
我正在尝试找到一种方法来自动化这个配置单元脚本并等待一些想法?
干杯,
您可以在 Hive Activity 上禁用暂存以运行任意 Hive 脚本。
stage = false
执行以下操作:
{
"name": "DefaultActivity1",
"id": "ActivityId_1",
"type": "HiveActivity",
"stage": "false",
"scriptUri": "s3://baucket/query.hql",
"scriptVariable": [
"param1=value1",
"param2=value2"
],
"schedule": {
"ref": "ScheduleId_l"
},
"runsOn": {
"ref": "EmrClusterId_1"
}
},
Hive 活动的另一种替代方法是使用 EMR 活动,如下例所示:
{
"schedule": {
"ref": "DefaultSchedule"
},
"name": "EMR Activity name",
"step": "command-runner.jar,hive-script,--run-hive-script,--args,-f,s3://bucket/path/query.hql",
"runsOn": {
"ref": "EmrClusterId"
},
"id": "EmrActivityId",
"type": "EmrActivity"
}