我对 Hadoop 中的数据如何放入地图和减少功能有一点难以理解。我知道我们可以定义输入格式和输出格式,然后定义输入和输出的键类型。但是举个例子,如果我们想要一个对象作为输入类型,Hadoop 在内部是如何做到的呢?
谢谢...
您可以使用 Hadoop InputFormat 和 OutputFormat 接口来创建您的自定义格式..一个示例可能是将 MapReduce 作业的输出格式化为 JSON..类似这样的东西 -
public class JsonOutputFormat extends TextOutputFormat<Text, IntWritable> {
@Override
public RecordWriter<Text, IntWritable> getRecordWriter(
TaskAttemptContext context) throws IOException,
InterruptedException {
Configuration conf = context.getConfiguration();
Path path = getOutputPath(context);
FileSystem fs = path.getFileSystem(conf);
FSDataOutputStream out =
fs.create(new Path(path,context.getJobName()));
return new JsonRecordWriter(out);
}
private static class JsonRecordWriter extends
LineRecordWriter<Text,IntWritable>{
boolean firstRecord = true;
@Override
public synchronized void close(TaskAttemptContext context)
throws IOException {
out.writeChar('{');
super.close(null);
}
@Override
public synchronized void write(Text key, IntWritable value)
throws IOException {
if (!firstRecord){
out.writeChars(",\r\n");
firstRecord = false;
}
out.writeChars("\"" + key.toString() + "\":\""+
value.toString()+"\"");
}
public JsonRecordWriter(DataOutputStream out)
throws IOException{
super(out);
out.writeChar('}');
}
}
}