我有一份hadoop的工作。说明工作后,我启动了一些映射器。每个映射器都会将一些文件写入磁盘,例如 part-m-00000、part-m-00001。据我了解,每个映射器都会创建一个零件文件。我有大量数据,所以必须有不止一个映射器,但我能以某种方式控制这个输出文件的数量吗?我的意思是,hadoop 将启动,例如 10 个映射器,但只有三个部分文件?
我发现这篇文章 How do multiple reducers output only one part-file in Hadoop? 但是有使用旧版本的hadoop库。我正在使用来自 org.apache.hadoop.mapreduce.* 而不是来自 org.apache.hadoop.mapred.* 的类
我正在使用 hadoop 0.20 版和 hadoop-core:1.2.0.jar
有没有可能使用新的hadoop API来做到这一点?