我有 map/reduce 作业,它将 reduce 后的文件存储在 HDFS 上的文件夹中。
我想将这些结果提交给另一个 map/reduce 作业。
我需要使用MultiFileInputFormat还是有其他解决方案?
我有 map/reduce 作业,它将 reduce 后的文件存储在 HDFS 上的文件夹中。
我想将这些结果提交给另一个 map/reduce 作业。
我需要使用MultiFileInputFormat还是有其他解决方案?
链接Map Reduce: ChainMapper 和 ChainReducer中提到了三个选项,关于如何将 reducer 的输出作为另一个 map 任务的输入。
MultiFileInputFormat 用于将多种输入格式作为 Map 任务的输入。