我将把要做的工作大致分为两部分:
我有大量数据(大约 1 TB,分为数百个文件),我通过 distcp 从 S3 复制到 HDFS
这些数据将由 hadoop 流式作业(一个简单的映射器和减速器,用 python 编写)处理
现在,我必须等到所有数据都被复制到HDFS
,然后才能开始我的实际工作。问题来了:考虑到它DISTCP
本身就是一个 map-reduce 作业,有没有办法可以“流线化”这两个作业,即第二个作业是否可以开始处理已经复制的数据(例如distcp
已经复制一些文件,第二份工作在技术上已经可以开始了)?
我希望我已经说清楚了。