1

我创建了一个名为employee (avro 格式)的配置单元表,并在部门上进行了分区。

我的 HDFS 位置中有 avro 数据集。我的数据集也有部门 ID。

我想使用来自 HDFS 的数据将数据导入 Hive 表。在导入期间,我希望将数据保存在其各自的分区中。

如何做到这一点?任何想法?

4

1 回答 1

0

有两种方法可以做到这一点。

1.Manual partitioning

将数据inpath加载hdfs path到表employee_table分区(deptId='1')

将数据inpath加载hdfs path到表employee_table分区(deptId='2')

2.Dynamic partitioning

一个。创建中间表

湾。创建带分区的员工表

C。从中间表加载数据到分区表

于 2016-05-17T15:33:01.010 回答