5

我正在尝试在 Amazon Elastic Mapreduce 中运行 Hadoop 作业。我的数据和 jar 位于 aws s3 中。当我设置工作流程时,我将 JAR 参数传递为

s3n://my-hadoop/input s3n://my-hadoop/output

下面是我的hadoop主要功能

public static void main(String[] args) throws Exception
    {
        Configuration conf = new Configuration();
        Job job = new Job(conf, "MyMR");
        job.setJarByClass(MyMR.class);
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(CountryReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        job.setInputFormatClass(TextInputFormat.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }

但是,我的工作流程因以下登录 stderr 而失败

Exception in thread "main" java.lang.ClassNotFoundException: s3n://my-hadoop/input
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:247)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:180)

那么如何在 aws emr 中指定我的输入和输出路径呢?

4

2 回答 2

2

所以基本上这是在尝试创建可执行 jar 时未定义主类的经典错误。当你不让 jar 知道主类的知识时,第一个参数被认为是主类,因此这里的错误。

因此,请确保在创建可执行 jar 时,在清单中指定主类。

或者

分别使用 args[1] 和 args[2] 进行输入和输出,并执行 hadoop 步骤,如下所示:

ruby elastic-mapreduce -j $jobflow --jar s3:/my-jar-location/myjar.jar --arg com.somecompany.MyMainClass --arg s3:/input --arg s3:/output
于 2013-02-14T18:51:22.587 回答
1

我遇到了同样的问题。这是因为您在提交自定义 jar 文件时需要 3 个参数(除了 2 个)。第一个是您的 Main 类名,第二个是输入文件的输入路径,第三个是输出文件夹的输出路径。无论如何,我想你可能已经解决了这个问题。

于 2016-09-24T22:30:03.837 回答