0

我有一个应用程序,我想让我的 reducer(我有几个用于 map/reduce 作业)根据要处理的密钥将它们的输出记录到 HDFS 上的不同文件中。因此,如果reducer 看到A 类型的键,应用reduce 逻辑但告诉Hadoop 将结果放入属于A 类型结果的hdfs 文件中,依此类推。显然,多个reducer可以输出A类型结果的不同部分,每个reducer最终可以处理任何类型,如A或B,但告诉hadoop将结果写入A类型存储桶或其他东西

这可能吗?

4

1 回答 1

1

MultipleOutputs 几乎是您正在寻找的(假设您至少是 0.21 版)。在我自己的工作中,我使用了这个类的克隆,修改后的命名约定更加灵活,可以根据我想要的任何内容将输出发送到不同的文件夹/文件,包括输入记录(键或值)的各个方面。照原样,该类对您可以为输出命名的名称有一些严格的限制。

于 2012-06-23T03:24:58.730 回答