我有一个文件test_file_1.txt
包含:
20140101,value1
20140102,value2
和文件test_file_2.txt
包含:
20140103,value3
20140104,value4
在 HCatalog 中有一个表:
create table stage.partition_pk (value string)
Partitioned by(date string)
stored as orc;
这两个脚本运行良好:
脚本 1:
LoadFile = LOAD 'test_file_2.txt' using PigStorage(',') AS (date : chararray, wartosc : chararray);
store LoadFile into 'stage.partition_pk' using org.apache.hcatalog.pig.HCatStorer();
脚本 2:
LoadFile = LOAD 'test_file_2.txt' using PigStorage(',')
AS (date : chararray, wartosc : chararray);
store LoadFile into 'stage.partition_pk' using org.apache.hcatalog.pig.HCatStorer();
表partition_pk
包含四个分区 - 一切都符合预期。
但是可以说,还有另一个文件包含应该插入到现有分区之一中的数据。Pig 无法写入包含数据的分区(或者我错过了什么?)您如何管理加载到现有分区(在非空的非分区表上)?您是否读取分区,将其与新数据合并,删除分区(如何?)并将其作为新分区插入?