我的 MapReduce 作业使用 MultipleOutputs 将文件写入三个单独的目录。
我的减速器计数是 400,对于写入两个目录的文件是空闲的。对于第三个目录,我试图减少写入的计数器文件的数量,因为文件很小。所以 400 个小计数器文件在 HDFS 中消耗了很多块。(我不希望这种情况发生)
我想保持减少计数相同,并且只减少写入一个目录的文件。MapReduce 是否支持类似火花合并的东西?或者多个输出可以以某种方式帮助只写入 1 或 2 个文件而不是 400 ?
我的 MapReduce 作业使用 MultipleOutputs 将文件写入三个单独的目录。
我的减速器计数是 400,对于写入两个目录的文件是空闲的。对于第三个目录,我试图减少写入的计数器文件的数量,因为文件很小。所以 400 个小计数器文件在 HDFS 中消耗了很多块。(我不希望这种情况发生)
我想保持减少计数相同,并且只减少写入一个目录的文件。MapReduce 是否支持类似火花合并的东西?或者多个输出可以以某种方式帮助只写入 1 或 2 个文件而不是 400 ?