0

如果我从在 2 个不同数据节点上运行的 2 个不同映射器获得相同的键/值对,并且如果我使用单个减速器,我如何消除重复的键/值对并防止它进入减速器?

我是否应该使用组合器,然后检查同一键是否存在重复值,然后在组合器中将其消除?但是组合器将来自单个映射器的所有键值对作为输入,对吧?

4

1 回答 1

2

处理这种重复正是减速器的职责。我认为 hadoop 中没有办法完全出于这个原因允许它。
正如您以正确的方式指出的那样-组合器在这里不会完全有帮助,而只会减少此类重复的数量

于 2012-07-20T09:57:59.037 回答