1

我基本上是在尝试将我自己的 Tab 分隔值行写入 3 个不同的输出文件。尽管定义和排序不同的命名输出,所有文件仍然命名为“part-r-*”

所有代码都经过匿名化和压缩

驱动程序类如下所示:

// Set up job
Job job = new Job(conf, MyDriver.class.getSimpleName());

job.setJarByClass(MyJar.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);

// Set mappers and reducers
job.setMapperClass(MyMapper.class);
job.setReducerClass(MyReducer.class);

job.setInputFormatClass(TextInputFormat.class);

FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]);

// Set the 3 different outputs
MultipleOutputs.addNamedOutput(job, "out1", TextOutputFormat.class,
         Text.class, Text.class);
MultipleOutputs.addNamedOutput(job, "out2", TextOutputFormat.class,
        Text.class, Text.class);
MultipleOutputs.addNamedOutput(job, "errors", TextOutputFormat.class,
        Text.class, Text.class);

// Run
System.exit(job.waitForCompletion(true) ? 0 : 1);

reducer 在 setup() 方法中设置 MultipleOutput:

public void setup(Context context) {
    // Set up multiple output files
    multiOut = new MultipleOutputs<Text,Text>(context);
}

稍后从 3 个单独的方法调用,每个方法都与不同的输出有关,例如,错误是最简单的:

private void writeError(String error) {
    System.out.println("Writing: " + error);
    multiOut.write("errors", new Text(error), new Text());
}

问题是我可以看到我的日志中有来自 System.out.println 的正确输出,但实际上没有任何内容写入文件。我什至在清理中调用 multiOut.close() 。

我想我只是在驱动程序类中遗漏了一些东西?如果我需要提供任何其他数据,请告诉我。

如果值得注意的话,这是在 Amazon EMR/S3 上运行的,但我认为这不是问题所在。

4

2 回答 2

0

这不是我认为我正在寻找的答案,但它确实有效。正如@DavisBroda 建议的那样,我更改了代码以使用write指定基本输出的方法。无论出于何种原因,我使用的名称根本不会在输出中使用,但至少我可以指定不同的输出文件夹,这给了我足够的分离,我可以使用。

看起来像这样,从上面的例子:

private void writeError(String error) {
    System.out.println("Writing: " + error);
    multiOut.write("errors", new Text(error), new Text(), basePath + "/errors/");
}
于 2013-11-14T01:39:34.777 回答
0

试试下面的语句:

MultipleOutputs.addNamedOutput(job, "out1", TextOutputFormat.class, NullWritable.class, Text.class);

于 2015-01-28T08:53:32.240 回答