我正在使用 hive(带有外部表)来处理存储在 amazon S3 上的数据。
我的数据分区如下:(
group/team/dt/
例如,数据文件可能存储在路径中group=myGroup/team=myTeam/dt=20120603
)
我想为几个团队(在不同的组中)处理数据。由于 RCOVER PARTITIONS 需要很长时间,我想将基于组和团队值的多个分区添加到配置单元表(即,给定该团队中所有可用日期的组和团队负载数据)。
我正在寻找的功能是:
CREATE EXTERNAL TABLE myData(
attr1 string, attr2 string, attr3 string)
PARTITIONED BY (group string, team string, dt string )
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION 's3://myBucket/${DATA_ROOT_DIR}';
-- Add paritions without specifying values for dt
ALTER TABLE myData ADD PARTITION (group='group1',team='team1') ;
ALTER TABLE myData ADD PARTITION (group='group2',team='team2') ;
谢谢!