0

我正在使用 0.20.0 版的 hadoop。

我已经成功设置了组合器类。我的程序运行成功。

但是,我发现我的数据中有大约 5% 的数据从 mapper 出来后没有进入 combiner,这些数据直接进入了 reducer。我不知道为什么?

4

1 回答 1

1

关于在 Hadoop 中实现组合器的说明:默认情况下,执行框架保留自行决定使用组合器的权利。实际上,这意味着组合器可能会被调用零次、一次或多次。此外,Hadoop 中的组合器实际上可能在 reduce 阶段被调用,即在键值对被复制到 reducer 之后,但在用户 reducer 代码运行之前。因此,必须仔细编写组合器,以便它们可以在这些不同的环境中执行。

您可以在下面的 PDF 的第 2.4 节中找到它

使用 MapReduce 进行数据密集型文本处理

于 2013-04-06T15:01:43.317 回答