hadoop - 控制 Reducer 结果输出文件/桶

Question

我有一个应用程序，我想让我的 reducer（我有几个用于 map/reduce 作业）根据要处理的密钥将它们的输出记录到 HDFS 上的不同文件中。因此，如果reducer 看到A 类型的键，应用reduce 逻辑但告诉Hadoop 将结果放入属于A 类型结果的hdfs 文件中，依此类推。显然，多个reducer可以输出A类型结果的不同部分，每个reducer最终可以处理任何类型，如A或B，但告诉hadoop将结果写入A类型存储桶或其他东西

这可能吗？

score 1 · Accepted Answer

MultipleOutputs 几乎是您正在寻找的（假设您至少是 0.21 版）。在我自己的工作中，我使用了这个类的克隆，修改后的命名约定更加灵活，可以根据我想要的任何内容将输出发送到不同的文件夹/文件，包括输入记录（键或值）的各个方面。照原样，该类对您可以为输出命名的名称有一些严格的限制。

hadoop - 控制 Reducer 结果输出文件/桶

1 回答 1

Related

Reference