4

我有一个 AVRO 文件(由 JAVA 创建),它似乎是 hadoop/mapreduce 的某种压缩文件,我想将它“解压缩”(反序列化)为一个平面文件。每行每条记录。

我了解到有一个用于 python 的AVRO 包,并且我正确安装了它。并运行示例以读取 AVRO 文件。但是,它出现了以下错误,我想知道阅读最简单的示例会发生什么?谁能帮我解释下面的错误。

>>> reader = DataFileReader(open("/tmp/Stock_20130812104524.avro", "r"), DatumReader())
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/.../python2.7/site-packages/avro/datafile.py", line 240, in __init__
    raise DataFileException('Unknown codec: %s.' % self.codec)
avro.datafile.DataFileException: Unknown codec: snappy.

顺便说一句,如果我做文件的“头”,并使用 VI 打开 AVRO 文件的前几行,我可以看到架构定义以及一些蹩脚的奇怪字符 - 可能是压缩内容。原始 AVRO 文件的起始位如下所示:

bj^A^D^Tavro.codec^Lsnappy^Vavro.schemaØ${"type":"record","name":"Stoc...

我不知道读取 AVRO 文件是否需要这些模式,如下所示:

schema = avro.schema.parse(open("schema").read())
# include schema to do sth...
reader = DataFileReader(open("Stock_20130812104524.avro", "r"), DatumReader())

提前致谢。

4

3 回答 3

6

尝试pip install python-snappy- 确保您首先安装了snappy

于 2013-08-26T21:16:59.923 回答
2

问题是,如果没有安装 Xcode 命令行工具,您将无法快速运行。您可以通过在命令提示符下键入 gcc 来检查它是否已安装。如果没有,则键入xcode-select –-install以安装它。然后安装 python-snappy 应该可以工作。谢谢斌!

于 2014-06-26T23:18:49.930 回答
-1

wget http://www.us.apache.org/dist/avro/avro-1.7.5/java/avro-tools-1.7.5.jar

java -jar avro/avro-tools-1.7.5.jar tojson input.avro > 输入

更多信息参考这里

于 2013-08-27T23:50:38.437 回答