0

第 1 步 - 我有一个 hadoop 流作业,它需要根据处理数据量的可变时间 第 2 步 - 工作完成后,我需要将所有数据转储导入 mongodb 并从中创建一个平面 csv 文件

问题
有什么方法可以使用 hadoop 流将步骤 2 粘合到步骤 1 并避免手动执行步骤 2?

4

1 回答 1

0

我建议使用https://github.com/Yelp/mrjobhttps://github.com/klboste/dumbo 之类的东西。专门针对 mrjob 和您的问题http://packages.python.org/mrjob/job.html#writing-multi-step-jobs

于 2012-04-03T14:22:20.537 回答