hadoop - 当相同的键被传递给 Hadoop 中的 Mapper 时会发生什么

Question

在 Hadoop Map Reduce 框架中，将数据作为键/值对传递给映射器的意义是什么？我知道键/值对在传递给减速器时很重要，因为它们满足了来自映射器的数据的分区。属于同一键的值作为列表从映射器到减速器阶段。但是在映射器阶段本身之前如何使用键？属于同一个键的值会发生什么？如果我们不定义自定义输入格式，我假设 Hadoop 将输入文件中的记录号作为键，将文本行作为映射器函数中的值。但是，如果我们决定实现自定义输入格式，则可以自定义选择键，并且可能存在与相同键对应的值。

在映射器阶段如何处理现象？映射器是否忽略重复记录并将它们视为单独的记录，还是每个键只选择一条记录？

score 5 · Accepted Answer

输入拆分是由单个映射处理的输入块。每个映射处理一个拆分。每个拆分都分为记录，映射依次处理每个记录（键值对）。

因此 mapper 将具有相同键的记录视为单独的记录。

hadoop - 当相同的键被传递给 Hadoop 中的 Mapper 时会发生什么

1 回答 1

Related

Reference