20

cloudera 的 parquet 文档展示了与 pig/hive/impala 集成的示例。但在许多情况下,我想读取 parquet 文件本身以进行调试。

是否有一个简单的 java reader api 来读取 parquet 文件?

谢谢杨

4

2 回答 2

10

旧方法:(已弃用)

AvroParquetReader<GenericRecord> reader = new AvroParquetReader<GenericRecord>(file);
GenericRecord nextRecord = reader.read();

新方法:

ParquetReader<GenericRecord> reader = AvroParquetReader.<GenericRecord>builder(file).build();
GenericRecord nextRecord = reader.read();

我从这里得到了这个,并成功地在我的测试用例中使用了它。

于 2017-01-21T00:18:20.680 回答
8

您可以使用AvroParquetReaderparquet-avro 库将 parquet 文件作为一组 AVROGenericRecord对象读取。

于 2015-10-02T04:26:30.127 回答