2

我试图弄清楚如何直接从 EMR 映射任务写入 s3 存储桶。我想运行一个 python 流作业,它会从 Internet 获取一些数据并将其保存到 s3 - 而不将其返回以减少作业。任何人都可以帮助我吗?

4

1 回答 1

1

为什么不直接将 MR 作业的输出设置为 s3 目录并告诉它没有减速器:

./elastic-mapreduce ..... --output s3n://bucket/outputfiles --reducer NONE

那应该做你想做的事。

然后你的脚本可以做这样的事情(对不起,红宝石):

STDIN.each do |url|
  puts extract_data(url)
end
于 2012-04-10T16:52:52.813 回答