1

请帮忙,我卡住了。这是我运行作业的代码。

hadoop jar mrjob.jar ru.package.Main -files hdfs://0.0.0.0:8020/MyCatalog/jars/metadata.csv -libjars hdfs://0.0.0.0:8020/MyCatalog/jars/opencsv.jar,hdfs://0.0.0.0:8020/MyCatalog/jars/gson.jar,hdfs://0.0.0.0:8020/MyCatalog/jars/my-utils.jar /MyCatalog/http_requests.seq-r-00000 /MyCatalog/output/result_file

我确实收到了这些警告:

12/10/26 18:35:50 WARN util.GenericOptionsParser: The libjars file hdfs://0.0.0.0:8020/MyCatalog/jars/opencsv.jar is not on the local filesystem. Ignoring.
12/10/26 18:35:50 WARN util.GenericOptionsParser: The libjars file hdfs://0.0.0.0:8020/MyCatalog/jars/gson.jar is not on the local filesystem. Ignoring.
12/10/26 18:35:50 WARN util.GenericOptionsParser: The libjars file hdfs://0.0.0.0:8020/MyCatalog/jars/my-utils.jar is not on the local filesystem. Ignoring.

然后:线程“main”中的异常 java.lang.NoClassDefFoundError: 在 Main 类中在线我尝试从名为 my-utils.jar 的 jar 实例化类

  1. 所有这些罐子都在 hfds 中(我通过文件浏览器看到它们)
  2. my-utils.jar 确实包含类,这是NoClassDefFoundError的原因

我做错了什么?

UPD: 我正在检查GenericOptionsParser的源代码:

/**
   * If libjars are set in the conf, parse the libjars.
   * @param conf
   * @return libjar urls
   * @throws IOException
   */
  public static URL[] getLibJars(Configuration conf) throws IOException {
    String jars = conf.get("tmpjars");
    if(jars==null) {
      return null;
    }
    String[] files = jars.split(",");
    List<URL> cp = new ArrayList<URL>();
    for (String file : files) {
      Path tmp = new Path(file);
      if (tmp.getFileSystem(conf).equals(FileSystem.getLocal(conf))) {
        cp.add(FileSystem.getLocal(conf).pathToFile(tmp).toURI().toURL());
      } else {
        LOG.warn("The libjars file " + tmp + " is not on the local " +
          "filesystem. Ignoring.");
      }
    }
    return cp.toArray(new URL[0]);
  }

所以:1.逗号之间没有空格2.还是不明白...我试图指向:本地文件系统,hdfs文件系统,结果是一样的。好像没有添加类...

4

3 回答 3

4

问题解决了。正确的调用是:

hadoop jar my-job.jar ru.package.Main -files /home/cloudera/uploaded_jars/metadata.csv -libjars /home/cloudera/uploaded_jars/opencsv.jar,/home/cloudera/uploaded_jars/gson.jar,/home/cloudera/uploaded_jars/url-raiting-utils.jar /MyCatalog/http_requests.seq-r-00000 /MyCatalog/output/scoring_result

在哪里

/我的目录

是hdfs路径,

/home/cloudera/uploaded_jars/

是本地 fs 路径 问题出在作业 jar 中。 以前我确实尝试过使用只有三个类的简单 jar 来运行作业:Mapper、Reducer、Main class。现在我确实提供了由 maven 生成的另一个(它生成了其中两个) 第二个作业 jar 包含所有依赖库。在里面。结构如下: my-job.jar

-

-- aopalliance-1.0.jar asm-3.2.jar avro-1.5.4.jar ... commons-beanutils-1.7.0.jar commons-beanutils-core-1.8.0.jar ... zookeeper-3.4.3 -cdh4.0.0.jar

lib 文件夹中有 76 个 jars。

它有效,但我不明白为什么。

于 2012-10-27T11:00:36.920 回答
1

仅仅因为它们在 HDFS 上,并不意味着它们在您正在运行的作业的类路径中。

如果你真的只是想解决这个问题,我会使用 maven 来构建一个“胖 jar”,它将你所有的依赖项包含在一个 jar 中。您可以使用shade 插件来做到这一点。

但是,看看你的命令,它看起来是错误的。我认为使用带有 -libjars 的“job”命令可能会更好,这里描述。我不确定您是否可以使用“hadoop jar”命令指定外部 jar。

于 2012-10-26T22:48:45.803 回答
0

原因是您的 mrjob.jar 确定了 Hadoop 客户端作业所需的 jar。您可以提供一个胖 jar,也可以将所有 jar 包含在 HADOOP_CLASSPATH 下。

另一方面,-libjars 设置 Map 和 Reduce 任务所需的额外 jar。

阅读此http://grepalex.com/2013/02/25/hadoop-libjars/

于 2019-07-30T15:23:38.527 回答