第 1 步 - 我有一个 hadoop 流作业,它需要根据处理数据量的可变时间 第 2 步 - 工作完成后,我需要将所有数据转储导入 mongodb 并从中创建一个平面 csv 文件
问题
有什么方法可以使用 hadoop 流将步骤 2 粘合到步骤 1 并避免手动执行步骤 2?
第 1 步 - 我有一个 hadoop 流作业,它需要根据处理数据量的可变时间 第 2 步 - 工作完成后,我需要将所有数据转储导入 mongodb 并从中创建一个平面 csv 文件
问题
有什么方法可以使用 hadoop 流将步骤 2 粘合到步骤 1 并避免手动执行步骤 2?
我建议使用https://github.com/Yelp/mrjob或https://github.com/klboste/dumbo 之类的东西。专门针对 mrjob 和您的问题http://packages.python.org/mrjob/job.html#writing-multi-step-jobs