5

所以我需要两个文件作为我的 mapreduce 程序的输入:City.dat 和 Country.dat

在我的主要方法中,我解析命令行参数,如下所示:

Path cityInputPath = new Path(args[0]);
Path countryInputPath = new Path(args[1]);
Path outputPath = new Path(args[2]);
MultipleInputs.addInputPath(job, countryInputPath, TextInputFormat.class, JoinCountryMapper.class);
MultipleInputs.addInputPath(job, cityInputPath, TextInputFormat.class, JoinCityMapper.class);
FileOutputFormat.setOutputPath(job, outputPath);

如果我现在使用以下命令运行我的程序:

hadoop jar capital.jar org.myorg.Capital /user/cloudera/capital/input/City.dat /user/cloudera/capital/input/Country.dat /user/cloudera/capital/output

我收到以下错误:

Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory /user/cloudera/capital/input/Country.dat already exists

为什么它把它当作我的输出目录?我指定了另一个目录作为输出目录。有人可以解释一下吗?

4

3 回答 3

7

根据堆栈跟踪,您的输出目录不为空。所以最简单的事情实际上是在运行作业之前将其删除:

bin/hadoop fs -rmr /user/cloudera/capital/output

除此之外,您的参数以您的 main class 的类名开头org.myorg.Capital。这就是第零个索引的论点。(基于堆栈跟踪和您提供的代码)。

基本上,您需要将所有索引向右移动一个:

Path cityInputPath = new Path(args[1]);
Path countryInputPath = new Path(args[2]);
Path outputPath = new Path(args[3]);
MultipleInputs.addInputPath(job, countryInputPath, TextInputFormat.class, JoinCountryMapper.class);
MultipleInputs.addInputPath(job, cityInputPath, TextInputFormat.class, JoinCityMapper.class);
FileOutputFormat.setOutputPath(job, outputPath);

不要忘记清除您的输出文件夹!

也给你一个小提示,你可以用逗号分隔文件“,”这样你就可以像这样通过一个调用来设置它们:

hadoop jar capital.jar org.myorg.Capital /user/cloudera/capital/input/City.dat,/user/cloudera/capital/input/Country.dat

在你的java代码中:

FileInputFormat.addInputPaths(job, args[1]);
于 2012-11-05T18:15:12.300 回答
1

这里发生的是类名被认为是第一个参数!

默认情况下,第一个非选项参数是要调用的类的名称。应使用完全限定的类名。如果指定了 -jar 选项,则第一个非选项参数是包含应用程序的类和资源文件的 JAR 归档的名称,启动类由 Main-Class 清单头指示。

因此,我建议您将清单文件添加到您指定主类的 jar中。您的 MANIFEST.MF 文件可能如下所示:

Manifest-Version: 1.0
Main-Class: org.myorg.Capital

现在你的命令看起来像:

hadoop jar capital.jar /user/cloudera/capital/input/City.dat /user/cloudera/capital/input/Country.dat /user/cloudera/capital/output

您当然可以只更改代码中使用的索引值,但这不是可取的解决方案。

于 2012-11-05T22:20:06.743 回答
-1

你能试试这个:

hadoop jar capital.jar /user/cloudera/capital/input /user/cloudera/capital/output

这应该读取单个输入目录中的所有文件。

于 2013-11-14T05:40:47.470 回答