hive - Hive 分桶表插入需要更长的时间

翻译自：https://stackoverflow.com/questions/70258220 2021-12-07T10:07:55.863

15 次

我有一张包含超过 140 亿条记录的表（比如 Table_A）。现在，我创建了一个分桶表（Table_A_bkt），其中包含按 ID 列聚类的 100 多个桶。每当我尝试将记录插入此表时，都会花费更多时间并且作业会超时。

为表选择存储桶计数的理想解决方案是什么？另外，将记录插入具有大量数据集的分桶表的优化方法是什么？

0 回答 0