您好,我想在 Amazon EMR 上运行一个每日数据导入猪脚本。我应该使用简单工作流还是数据管道来安排和监控作业?我尝试通过数据管道,但它似乎需要一个输出。如果我正在运行自定义猪脚本,这个输出会进入什么?他们是否希望您为数据导入任务/作业使用默认的预制猪脚本?
在我的例子中,我有一个猪脚本,它从 S3 输入中获取并执行一些数据转换,然后推送到 dynamodb。试图在数据管道中安排这个猪脚本,我看到有一个猪活动类型和一个 s3 到 dynamodb 模板,但我不知道如何自定义/修改它,以便它运行我的猪脚本并在它去之前转换数据发电机分贝。这个过程中s3和dynamodb映射设置在哪里?由于 pig 脚本从 s3 导入并单独导出到 dynamodb,这是否是多余的?