我有一张包含超过 140 亿条记录的表(比如 Table_A)。现在,我创建了一个分桶表(Table_A_bkt),其中包含按 ID 列聚类的 100 多个桶。每当我尝试将记录插入此表时,都会花费更多时间并且作业会超时。
为表选择存储桶计数的理想解决方案是什么?另外,将记录插入具有大量数据集的分桶表的优化方法是什么?
我有一张包含超过 140 亿条记录的表(比如 Table_A)。现在,我创建了一个分桶表(Table_A_bkt),其中包含按 ID 列聚类的 100 多个桶。每当我尝试将记录插入此表时,都会花费更多时间并且作业会超时。
为表选择存储桶计数的理想解决方案是什么?另外,将记录插入具有大量数据集的分桶表的优化方法是什么?