0

我的 MapReduce 作业使用 MultipleOutputs 将文件写入三个单独的目录。
我的减速器计数是 400,对于写入两个目录的文件是空闲的。对于第三个目录,我试图减少写入的计数器文件的数量,因为文件很小。所以 400 个小计数器文件在 HDFS 中消耗了很多块。(我不希望这种情况发生)

我想保持减少计数相同,并且只减少写入一个目录的文件。MapReduce 是否支持类似火花合并的东西?或者多个输出可以以某种方式帮助只写入 1 或 2 个文件而不是 400 ?

4

1 回答 1

0

我想保持减少计数相同,并且只减少写入一个目录的文件。

每个减速器都写入单独的文件。如果你想减少文件的数量,你需要减少 reducer 的数量。

于 2021-08-02T10:16:09.480 回答