1

我有一个包含 3 个步骤的 mrjob。第二步期望输入第一步的结果以及来自 S3 的更多内容。

我知道我总是可以通过第一步“流式传输”它,这意味着发射是原样的,并且只在第二步中使用它,但我想避免这种情况。

有没有办法为 mrjob 中的后续步骤定义额外的输入?

4

1 回答 1

0

您可以考虑使用持久的作业流程将您的任务分成辅助输入之前和之后的部分,而不是将步骤分组到单个作业中:

重复使用 Amazon Elastic MapReduce 实例

http://pythonhosted.org/mrjob/guides/emr-advanced.html

于 2014-04-17T16:50:55.543 回答