amazon-s3 - 使用 S3 作为 MapReduce 作业输入

Question

我有一个 MR 工作来读取 amazon S3 上的文件并处理本地 hdfs 上的数据。这些文件是压缩为 .gz 的文本文件。我尝试如下设置工作，但它不起作用，有人知道可能出了什么问题吗？我需要先添加额外的步骤来解压缩文件吗？

谢谢！

String S3_LOCATION = "s3n://access_key:private_key@bucket_name"

protected void prepareHadoopJob() throws Exception {    

    this.getHadoopJob().setMapperClass(Mapper1.class);
    this.getHadoopJob().setInputFormatClass(TextInputFormat.class);

FileInputFormat.addInputPath(this.getHadoopJob(), new Path(S3_LOCATION));

this.getHadoopJob().setNumReduceTasks(0);
this.getHadoopJob().setOutputFormatClass(TableOutputFormat.class);
this.getHadoopJob().getConfiguration().set(TableOutputFormat.OUTPUT_TABLE, myTable.getTableName());
this.getHadoopJob().setOutputKeyClass(ImmutableBytesWritable.class);
this.getHadoopJob().setOutputValueClass(Put.class);
}

score 0 · Accepted Answer

通常，您不需要先解压缩文件，但是如果没有任何有关错误消息的详细信息，就很难确定出了什么问题

amazon-s3 - 使用 S3 作为 MapReduce 作业输入

1 回答 1

Related

Reference