我试图了解 Map Reduce 的一般工作原理。所以我所知道的是,有一些 Mapper 在多台计算机上并行运行并创建一个结果集,然后由在多台计算机上并行运行的 Reducers 使用该结果集来创建预期的数据集。
我的问题是:
一项作业是否在固定数量的文件上运行?因此,在 Job 开始时,需要处理固定数量的文件来处理和生成一些数据。
如果不是,那么我们如何处理可能来自不同来源的数据流,比如 Twitter 提要等?
如果是,请解释 Map Reduce 如何找出所有 Mappers 何时完成以及 Reducing 任务应该开始,因为可能没有参考点。