1

我有 10 个带有数字(整数)的 HDFS 文件。当我使用 mapreduce 对它们进行排序时,每个 reducer 的输出都得到了很好的排序。但是,如果我想对所有数字进行全局排序怎么办?比如:第一个输出文件的数字最大,最后一个输出文件的数字最小......

我想到的选项是:

  • 使用单个 reducer,这可能会破坏 mapreduce 的目的
  • 下载并在本地合并排序...

有更好的解决方案吗?谢谢

4

1 回答 1

0

看一下 terrasort 示例。在那里,他们首先对数据进行采样以创建一个分区方案,以确保对最终结果进行全局排序。

于 2012-11-30T05:48:06.163 回答