Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 0.20.0 版的 hadoop。
我已经成功设置了组合器类。我的程序运行成功。
但是,我发现我的数据中有大约 5% 的数据从 mapper 出来后没有进入 combiner,这些数据直接进入了 reducer。我不知道为什么?
关于在 Hadoop 中实现组合器的说明:默认情况下,执行框架保留自行决定使用组合器的权利。实际上,这意味着组合器可能会被调用零次、一次或多次。此外,Hadoop 中的组合器实际上可能在 reduce 阶段被调用,即在键值对被复制到 reducer 之后,但在用户 reducer 代码运行之前。因此,必须仔细编写组合器,以便它们可以在这些不同的环境中执行。
您可以在下面的 PDF 的第 2.4 节中找到它
使用 MapReduce 进行数据密集型文本处理