3

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业。下面是我的代码。

Configuration conf = new Configuration();
conf.set("fs.default.name", "hdfs://server:9000/");
conf.set("hadoop.job.ugi", "username");

Job job = new Job(conf, "Percentil Ranking");
job.setJarByClass(PercentileDriver.class);
job.setMapperClass(PercentileMapper.class);
job.setReducerClass(PercentileReducer.class);
job.setMapOutputKeyClass(TestKey.class);
job.setMapOutputValueClass(TestData.class);
job.setOutputKeyClass(TestKey.class);
job.setOutputValueClass(BaselineData.class);

job.setOutputFormatClass(SequenceFileOutputFormat.class);

FileInputFormat.addInputPath(job, new Path(inputPath));

FileOutputFormat.setOutputPath(job, new Path(outputPath));

job.waitForCompletion(true);

当作业立即开始执行时,甚至在映射阶段之前都会引发异常。

java.io.IOException: Filesystem closed
at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClient.java:226)
at org.apache.hadoop.hdfs.DFSClient.getFileInfo(DFSClient.java:617)
at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:453)
at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:192)
at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:142)
at org.apache.hadoop.fs.FileSystem.copyToLocalFile(FileSystem.java:1216)
at org.apache.hadoop.fs.FileSystem.copyToLocalFile(FileSystem.java:1197)
at org.apache.hadoop.mapred.LocalJobRunner$Job.<init>(LocalJobRunner.java:92)
at org.apache.hadoop.mapred.LocalJobRunner.submitJob(LocalJobRunner.java:373)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:800)
at org.apache.hadoop.mapreduce.Job.submit(Job.java:432)
at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:447)

输入文件确实存在,并且是一个逗号分隔的文本文件。我可以使用hadoop jar具有相同输入和输出的命令在 hadoop 集群上执行作业。但我无法远程运行它。我还可以远程运行其他工作。

谁能告诉我这个问题的解决方案是什么?

4

2 回答 2

2

它似乎conf.set("mapred.job.tracker", "server:9001");解决了这个问题。谢谢你的帮助。

于 2011-05-02T13:26:28.643 回答
1

你来做这件事:

conf.set("fs.default.name", "serverurl");

所以你将文件系统设置为值“serverurl”......这是没有意义的。

我很确定当您从代码中删除该行时它会起作用。

高温高压

于 2011-04-28T12:11:21.947 回答