我有 10 个带有数字(整数)的 HDFS 文件。当我使用 mapreduce 对它们进行排序时,每个 reducer 的输出都得到了很好的排序。但是,如果我想对所有数字进行全局排序怎么办?比如:第一个输出文件的数字最大,最后一个输出文件的数字最小......
我想到的选项是:
- 使用单个 reducer,这可能会破坏 mapreduce 的目的
- 下载并在本地合并排序...
有更好的解决方案吗?谢谢
我有 10 个带有数字(整数)的 HDFS 文件。当我使用 mapreduce 对它们进行排序时,每个 reducer 的输出都得到了很好的排序。但是,如果我想对所有数字进行全局排序怎么办?比如:第一个输出文件的数字最大,最后一个输出文件的数字最小......
我想到的选项是:
有更好的解决方案吗?谢谢