Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在以文本格式在外部表上使用 hive。我每小时填充这个表,但我按月对表进行分区(数据集相对较小)。每小时我想将新数据插入一些分区。
INSERT INTO 子句导致在包含旧数据的现有分区中创建一个新文件。这样到月底我将在每个分区中有大约 700 个小文件。
HIVE 有没有办法将数据附加到分区中的旧文件(不对旧数据使用 UNION ALL)?
不幸的是,目前这是不可能的。希望随着这些天文件附加补丁获得更多关注,它最终将成为附加到现有文件的新功能。
我认为这是 Hive 的主要缺点之一......尤其是当您开始处理更小的插入时。