给定一个具有 map 和 reduce 阶段的作业,我可以看到输出文件夹包含名为“part-r-00000”的文件。
如果我需要在应用程序级别对这些文件进行后处理,我是否需要以自然命名顺序遍历输出文件夹中的所有文件(part-r-00000、part-r-00001、part-r-00002 ...)为了得到工作结果?
或者我可以使用一些 hadoop 帮助文件阅读器,这将允许我获得一些“迭代器”并为我处理文件切换(当文件 part-r-00000 被完全读取时,从文件 part-r-00001 继续)?