我是 MapReduce-hadoop 世界的新手。在配置和文档中,他们指定了映射器和缩减器的数量。它实际上是什么意思?我的疑问是:
- 是否指定将完成映射/减少的级别数。即,如果reducer 的编号=2。那么reduce 方法将被调用2 次。是吗?
- 是否指定并行工作的映射器/缩减器线程数,但每个映射/缩减只执行一次。
哪一个是正确的?或者它意味着别的东西。我很困惑..请回答我
不,你完全错了。
mapred.tasktracker.map|reduce.tasks.maximum
。请注意,reducer(在插槽中)将执行任务。所以相应地配置reduce slot的数量和reduce任务的数量是很重要的。如果你总共有 10 个 reduce 槽,你还需要至少 10 个 reduce 任务,否则一些槽会空闲。由于您是 Map-Reduce 的新手,我坚信您需要阅读本文:http: //static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/mapreduce-osdi04.pdf
一旦范式被清楚地理解,你们中的大多数疑问都会被清除。它是完美的起点。