0

我正在使用 hadoop map 和 reduce 程序。我需要读取多个文件并将其输出到多个文件中

例子

Input \  one.txt 
         two.txt 
         three.txt 

Output \ 
         one_out.txt
         two_out.txt

我需要得到这样的东西。我怎样才能做到这一点。

请帮助我

谢谢

4

1 回答 1

1
  • 如果文件很小,您可以简单地使用FileInputFormat,hadoop 将在内部为每个文件生成一个单独的映射器任务,最终将为相应的输入文件生成输出文件(如果不涉及减速器)。
  • 如果文件很大,则需要编写自定义输入格式,并指定isSplittable(false). 它将确保 hadoop 不会跨映射器拆分您的文件,并且不会为每个输入文件生成多个输出文件
于 2013-11-14T10:29:55.950 回答