4

我必须构建一个工具,它将我们的数据存储从 HBase(HFiles) 以 parquet 格式处理到 HDFS。

请建议将数据从 HBase 表移动到 Parquet 表的最佳方法之一。

我们必须将 4 亿条记录从 HBase 移动到 Parquet。如何实现这一点以及移动数据的最快方法是什么?

提前致谢。

问候,

帕迪普·夏尔马。

4

2 回答 2

1

请查看这个项目tmalaska/HBase-ToHDFS ,它读取 HBase 表并将输出写入为 Text、Seq、Avro 或 Parquet

parquet 的示例用法:

将数据导出到 Parquet

hadoop jar HBaseToHDFS.jar ExportHBaseTableToParquet exportTest c export.parquet false avro.schema
于 2016-05-04T10:42:58.077 回答
1

我最近为 HBase 开源了一个补丁,可以解决您所描述的问题。看看这里:https ://github.com/ibm-research-ireland/hbaquet

于 2018-04-06T15:15:41.853 回答