0

我正在研究将apache avro集成到我的 MapR 程序中的项目。但是,与mapred相比,我对使用新的mapreduce包感到非常困惑。后者对如何在不同情况下使用进行了详细说明,并且为新的信息提供了较少的信息但我所知道的是它们对应于hadoop的新旧接口。

对于输入为非 Avro 数据(例如 TextInputFormat)文件且输出为 avro 文件的作业,是否有人有任何使用mapreduce接口的经验或示例。

4

1 回答 1

2

这两个包代表相应 Hadoop mapred 和 mapreduce API 的输入/输出格式、映射器和化简器基类。

因此,如果您的工作使用旧的(mapred)包 API,那么您应该使用相应的 mapred avro 包类。

Avro 有一个使用 Avro 输出格式的字数调整示例,对于更新的 mapreduce API 应该很容易修改:

http://svn.apache.org/viewvc/avro/trunk/doc/examples/mr-example/src/main/java/example/AvroWordCount.java?view=markup

以下是一些修改要点:https ://gist.github.com/chriswhite199/6755242

于 2013-09-29T18:36:05.320 回答