Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在研究将apache avro集成到我的 MapR 程序中的项目。但是,与mapred相比,我对使用新的mapreduce包感到非常困惑。后者对如何在不同情况下使用进行了详细说明,并且为新的信息提供了较少的信息。但我所知道的是它们对应于hadoop的新旧接口。
对于输入为非 Avro 数据(例如 TextInputFormat)文件且输出为 avro 文件的作业,是否有人有任何使用mapreduce接口的经验或示例。
这两个包代表相应 Hadoop mapred 和 mapreduce API 的输入/输出格式、映射器和化简器基类。
因此,如果您的工作使用旧的(mapred)包 API,那么您应该使用相应的 mapred avro 包类。
Avro 有一个使用 Avro 输出格式的字数调整示例,对于更新的 mapreduce API 应该很容易修改:
http://svn.apache.org/viewvc/avro/trunk/doc/examples/mr-example/src/main/java/example/AvroWordCount.java?view=markup
以下是一些修改要点:https ://gist.github.com/chriswhite199/6755242