我必须构建一个工具,它将我们的数据存储从 HBase(HFiles) 以 parquet 格式处理到 HDFS。
请建议将数据从 HBase 表移动到 Parquet 表的最佳方法之一。
我们必须将 4 亿条记录从 HBase 移动到 Parquet。如何实现这一点以及移动数据的最快方法是什么?
提前致谢。
问候,
帕迪普·夏尔马。
请查看这个项目tmalaska/HBase-ToHDFS ,它读取 HBase 表并将输出写入为 Text、Seq、Avro 或 Parquet
hadoop jar HBaseToHDFS.jar ExportHBaseTableToParquet exportTest c export.parquet false avro.schema
我最近为 HBase 开源了一个补丁,可以解决您所描述的问题。看看这里:https ://github.com/ibm-research-ireland/hbaquet