我正在使用 MultipleOutputs 编写三个文件,即名称、属性、其他文件并使用 6 个还原器。我在我的输出目录中得到这些文件:
attrib-r-00003 name-r-00004 part-r-00000 part-r-00002 part-r-00004 _SUCCESS
_logs other-r-00001 part-r-00001 part-r-00003 part-r-00005
我的问题是,这些文件是如何命名的(为什么将 -r-0003 附加到属性文件,是任务 0003 编译了这个文件吗?)。我目前在伪模式下运行 Hadoop,在真正的集群上是否需要合并文件(即 attrib 是否会通过 diff reducers 拥有不同的文件)?另外,有没有办法可以从我的输出文件名中删除 -r-xxxxx ?
PS 我对 Hadoop 的了解非常有限。