Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
如果我从在 2 个不同数据节点上运行的 2 个不同映射器获得相同的键/值对,并且如果我使用单个减速器,我如何消除重复的键/值对并防止它进入减速器?
我是否应该使用组合器,然后检查同一键是否存在重复值,然后在组合器中将其消除?但是组合器将来自单个映射器的所有键值对作为输入,对吧?
处理这种重复正是减速器的职责。我认为 hadoop 中没有办法完全出于这个原因允许它。 正如您以正确的方式指出的那样-组合器在这里不会完全有帮助,而只会减少此类重复的数量