3

我正在以文本格式在外部表上使用 hive。我每小时填充这个表,但我按月对表进行分区(数据集相对较小)。每小时我想将新数据插入一些分区。

INSERT INTO 子句导致在包含旧数据的现有分区中创建一个新文件。这样到月底我将在每个分区中有大约 700 个小文件。

HIVE 有没有办法将数据附加到分区中的旧文件(不对旧数据使用 UNION ALL)?

4

1 回答 1

2

不幸的是,目前这是不可能的。希望随着这些天文件附加补丁获得更多关注,它最终将成为附加到现有文件的新功能。

我认为这是 Hive 的主要缺点之一......尤其是当您开始处理更小的插入时。

于 2012-08-22T21:04:32.317 回答