0

我有一张有 16 亿行的表。我一直在运行一个查询,该查询使用具有超过 500 万个唯一值的 group-by 字段,然后按降序排列另一个整数值的总和,最后只返回前 10 个。注意一个多小时后,该查询是仍然停留在运行状态。

我使用“bq cp -a”创建了这个大表。最初,这些源表是来自 1000 个较小表的“bq cp”,每个表都是从超过 12 个压缩的 csv 加载文件中加载的。

我搜索了相关问题,发现“ Google BigQuery 运行查询缓慢”提到了由于大量小摄取导致的碎片化导致的缓慢。我的数据感染方法是否被认为是在摄取期间导致碎片的“数据位太小”?

是否有可能 500 万个唯一值太多,这是响应缓慢的根本原因?

4

1 回答 1

0

昨天我们遇到了延迟高峰,今天又出现了一个较小的延迟。您能否提供比您预期更长的查询作业的项目 ID + 作业 ID?

于 2013-05-23T01:21:49.467 回答