我可以在我的 mapreduce 作业中看到 reducer 部分的输出是按键排序的。
因此,如果我将 reducer 的数量设置为 10,则输出目录将包含 10 个文件,并且每个输出文件都有一个排序数据。
我把它放在这里的原因是,即使所有文件都对数据进行了排序,但这些文件本身没有排序.. 例如:在某些情况下,part-000* 文件从 0 开始并以 zzzz 结束,假设我是使用 Text 作为键。
我假设即使在文件中也应该对文件进行排序,即文件 1 应该有 a 并且最后一个文件部分--00009 应该有带有 zzzz 或 atleaset > a 的条目
假设我有所有字母均匀分布的键。
有人可以解释一下为什么会出现这种行为