0

I am working on Hadoop performance analysis and I am running some benchmarks on Hadoop. What's surprising is that Grep takes almost 1/10 of the time it takes wordcount to run which is very non-intuitive. Can anyone explain why is this true?

4

1 回答 1

3

map-reduce 习惯用法中的很多工作是映射器和化简器之间的通信。

在 WordCount 示例中,每个单词都会产生一个输出记录(和一个 reducer 输入)。在 Grep 示例中,每个匹配的模式都会产生一条输出记录。如果模式不经常匹配,那么记录就不是很多。

我希望映射器在大致相同的时间内运行,因为两者都将受 I/O 限制,直到它们产生输出为止。两个任务之间的 CPU 差异可以忽略不计。但是,输出量之间的巨大差异将非常明显。

于 2013-04-18T22:58:59.357 回答