我有一个包含 5600 万行的表。
该表每 5 分钟处理一次高负载的 UPSERTS,因为它正在从 KAFKA 加载流数据。每次加载大约 200-500k 更新。
当我针对其中一个时间戳列运行带有 ORDER BY 的 SELECT 时,需要 5-7 分钟才能返回结果。
我为该列尝试了 Cluster Key,但由于该表上的 DML 操作很高,并且列本身的基数很高,所以集群效率低且成本高。
到目前为止,唯一将查询时间显着减少到大约 15 秒的想法是将仓库大小从 Small 增加到 X-Large。
我不相信唯一的解决方案是增加仓库规模。这里的任何建议都会很棒!