Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有以下计数器的 MapReduce 工作
Map output records: 1,256,043,797 Reduce input records: 1,027,012,342
我没有使用组合器,所以令我感到惊讶的是,reduce 中的记录比映射产生的记录少。这可能是什么原因造成的?
事实证明,这是因为我的 reduce 没有遍历某些键的所有值。计数器显示消耗的 reduce 记录的数量,因此只有在 reducer 一直通过迭代器的每个键时,它才会等于 map 输出记录。