我对使用 Avro 从 Hadoop HDFS 保存和读取文件很感兴趣,我在 Hadoop 问题跟踪器中看到了一些关于实现对 Avro 的支持的 Jira,但没有示例如何在 Hadoop 中启用 Avro 支持。此外,我不完全确定当前的 0.20 是否支持 Avro,因为一些 Jira 已在 0.21 关闭。是否有可能获得最新的 0.21 并以某种方式结束打开 Avro 并使用它?
问问题
1211 次
2 回答
3
这篇博文展示了一些在 Map/Reduce 作业中使用 Avro 的示例代码:http ://www.datasalt.com/2011/07/hadoop-avro/没有太多示例。在这里,您将找到一些关于如何配置标准 Map/Reduce 作业以将 Avro 用作输入或输出格式或两者兼有的代码片段。还有一些技巧,例如如何编写自定义 GroupComparator 进行二次排序或如何指定自定义 Partitioner(我在其他任何地方都没有找到)。
于 2012-01-25T18:27:20.820 回答
0
我将 Avro 与 Hadoop 0.20 (Amazon Elastic MapReduce) 一起使用。您可以通过在类路径中包含 Avro jar 来启用 Avro 支持,然后扩展 Avro 提供的类来实现 Map 和 Reduce 任务。
请参阅http://avro.apache.org/docs/1.4.0/api/java/index.html,尤其是 http://avro.apache.org/docs/1.4.0/api/java/ 上的 mapred包org/apache/avro/mapred/package-frame.html。
于 2010-09-24T00:33:14.873 回答