3

根据 Data Pipeline 文档,EMRActivity Step 命令使用与常规 EMR 作业不同的格式。

这是一个简化的示例:

/home/hadoop/contrib/streaming/hadoop-streaming.jar,-input,s3://mybucket/folder1/*.gz,-output,s3://output,-mapper=mapper,-reduce=reducer.

假设我需要从多个存储桶中提取数据,如何将这些多个输入传递给一个单步命令?

在常规的 EMR 作业设置中,我只需用逗号分隔输入路径,但这似乎不适用于 EmrActivity。

我对 EmrActivity 的解决方案非常感兴趣,而不是设置复制活动以将我的数据带到临时的唯一位置。

谢谢。

4

1 回答 1

0

验证 json 需要使用 cli 转义。如果使用 CLI 中的 json,请尝试“\”。(\,) 将从控制台工作。

于 2015-01-28T00:22:26.677 回答