我正在尝试了解 map reduce 架构。我正在咨询这篇http://answers.oreilly.com/topic/2141-how-mapreduce-works-with-hadoop/文章。我对 mapreduce 框架的组件 JobClient 有一些疑问。我的问题是:
JObClient 如何计算数据的输入拆分?
根据我正在咨询的资料,Job Client 在运行作业时计算位于指定 HDFS 上的输入路径中的数据的输入拆分。文章说,然后 Job Client 将资源(jar 和计算输入拆分)复制到 HDFS。现在这是我的问题,当输入数据在 HDFS 中时,为什么 jobClient 将计算的输入分割复制到 HDFS 中。
让我们假设 Job Client 将输入拆分复制到 HDFS,现在当 JOb 提交给 Job Tracker 和 Job Tracker 时详细说明作业为什么它从 HDFS 检索输入拆分?
如果我的问题不清楚,请道歉。我是初学者。:)