我有一张有 16 亿行的表。我一直在运行一个查询,该查询使用具有超过 500 万个唯一值的 group-by 字段,然后按降序排列另一个整数值的总和,最后只返回前 10 个。注意一个多小时后,该查询是仍然停留在运行状态。
我使用“bq cp -a”创建了这个大表。最初,这些源表是来自 1000 个较小表的“bq cp”,每个表都是从超过 12 个压缩的 csv 加载文件中加载的。
我搜索了相关问题,发现“ Google BigQuery 运行查询缓慢”提到了由于大量小摄取导致的碎片化导致的缓慢。我的数据感染方法是否被认为是在摄取期间导致碎片的“数据位太小”?
是否有可能 500 万个唯一值太多,这是响应缓慢的根本原因?