尝试使用 Google DataFlow Java SDK,但对于我的用例,我的输入文件是 .parquet 文件。
找不到任何开箱即用的功能来将 parquet 作为有界数据源读入 DataFlow 管道。据我了解,我可以创建一个编码器和/或接收器,有点像基于Parquet Reader的 AvroIO 。
有没有人可以建议如何以最佳方式实施它?或指向我的参考指南 \ 示例?
感谢你的帮助!
- 一种
尝试使用 Google DataFlow Java SDK,但对于我的用例,我的输入文件是 .parquet 文件。
找不到任何开箱即用的功能来将 parquet 作为有界数据源读入 DataFlow 管道。据我了解,我可以创建一个编码器和/或接收器,有点像基于Parquet Reader的 AvroIO 。
有没有人可以建议如何以最佳方式实施它?或指向我的参考指南 \ 示例?
感谢你的帮助!
- 一种
您可以在https://issues.apache.org/jira/browse/BEAM-214找到 ParquetIO(您称之为开箱即用的功能)的进展。
同时,应该可以在Beam和Dataflow SDK中使用 Hadoop FileInputFormat 读取 Parquet 文件。