0

我一直在尝试将 pagerank 算法与 hadoop 一起使用,但我在作业初始化方面遇到了一些问题。

当我尝试使用 Job 类进行初始化时,编译时出现以下错误:

线程“main”中的异常 java.lang.NoClassDefFoundError: org.apache.hadoop.mapreduce.Job.(Job.java:89) 的 org/apache/commons/logging/LogFactory 在 Pagerank.main(Pagerank.java:244)

这是代码:

Job job;
job = new Job();
job.setJarByClass(Pagerank.class);      // In what class are our map/reduce functions for this job found?
job.setMapperClass(PRMap.class);        // What is our map function for this job?
job.setReducerClass(PRReduce.class);    // What is our reduce function for this job?

job.setOutputKeyClass(Text.class);              // What are the (hadoop.io compliant) datatype for our
job.setOutputValueClass(Text.class);            // reducer output's key-value pairs?
job.setInputFormatClass(TextInputFormat.class);     // How will the mapper distinguish (key value) record inputs?
FileInputFormat.addInputPath(job, new Path(args[0])); // First command line argument
FileOutputFormat.setOutputPath(job, new Path("temp0"));
job.waitForCompletion(true);

当我尝试使用 JobConf 类进行初始化时,我收到一个关于所使用的某些方法的争论的错误。

这是代码:

     JobConf conf = new JobConf(Pagerank.class);
     conf.setJobName("pagerank");

     conf.setOutputKeyClass(Text.class);
     conf.setOutputValueClass(Text.class);

     conf.setMapperClass(PRMap.class);
     conf.setReducerClass(PRReduce.class);

     conf.setInputFormat(TextInputFormat.class);
     conf.setOutputFormat(TextOutputFormat.class);

     FileInputFormat.setInputPaths(conf, new Path(args[0]));
     FileOutputFormat.setOutputPath(conf, new Path(args[1]));

     JobClient.runJob(conf);

根据错误:

JobConf 类中的方法 setMapperClass 不能应用于给定类型;

必需:类?扩展映射器

找到:类 PRMap

原因:实参 Class PRMap 不能转换为 Class ?extends Mapper 通过方法调用转换

即使我编写的 PRMap 类遵循 Hadoop 的 Map 函数标准,我似乎也无法在 setMapperClass 中将 PRMap.class 作为参数传递

public static class PRMap extends Mapper<LongWritable, Text, Text, Text>
{ ... }

对这两种方法有什么建议吗?

4

4 回答 4

1

尝试将包含 org.apache.commons.Logging.LogFactory jar 的 jar 放入每台机器的 HadoopHome 的 Lib 目录中,然后重新启动集群。

或者您可以尝试使用 libjars 选项通过命令行添加 jar。作为:

hadoop jar myjar.jar package.classname -libjars mypath/common-loggings.jar

于 2013-02-08T04:22:02.807 回答
1

在您的主要方法中添加这一行。

DistributedCache.addFileToClassPath(new Path("<Absolute Path>/common-loggings.jar"), conf);
于 2013-02-08T05:52:15.690 回答
0

那是因为 Mapper 无法找到LogFactory,这是common-loggings.jar. 为此,您必须让每个客户端映射器都可以访问它,通过将 jar 复制到所有机器或其他有效的方法是复制到分布式缓存中。

$bin/hadoop fs -copyFromLocal mylib.jar /myapp/mylib.jar
And accessing it from you code
DistributedCache.addFileToClassPath(new Path("/myapp/mylib.jar"), job);

更多可以在这里找到

于 2013-02-08T09:17:47.707 回答
0

看起来 PRMap 类扩展了 org.apache.hadoop.mapreduce.Mapper http://hadoop.apache.org/docs/mapreduce/current/api/org/apache/hadoop/mapreduce/Mapper.html和需要的类通过 JobConf 传递的应该是 org.apache.hadoop.mapred.Mapper 的子类。

要解决 java.lang.NoClassDefFoundError 的问题,请将 commons-logging-xxxjar 添加到您的 classpath 中。

运行 hadoop classpath 以确认您是否看到 jar 出现。

于 2013-02-08T04:26:35.963 回答