目标是使用一个 reduce 将输出写入不同的文件夹(不同的路径)。我使用旧的 mapreduce api,我对 MultipleOutputs 做了一些修改(放开限制),它可以工作。但是我使用的输出格式扩展了 FileOutputFormat,其中 FileOutputCommitter 由 FileOutputFormat 引用。而且我发现只有一个文件夹中会有一个 _success 文件。会有问题吗?
而且还有一个空文件part-00000,不知道为什么会生成?
目标是使用一个 reduce 将输出写入不同的文件夹(不同的路径)。我使用旧的 mapreduce api,我对 MultipleOutputs 做了一些修改(放开限制),它可以工作。但是我使用的输出格式扩展了 FileOutputFormat,其中 FileOutputCommitter 由 FileOutputFormat 引用。而且我发现只有一个文件夹中会有一个 _success 文件。会有问题吗?
而且还有一个空文件part-00000,不知道为什么会生成?
_SUCCESS 仅在作业完成后写入一次。检查作业是否完成很有用。我认为这样做没有任何风险。您应该知道它仅在作业完成后创建,并且如果您正在使用该文件,您应该知道在哪里查找该文件。
关于部分文件,请查看 map reduce 输出文件:part-r-* 和 part-*