举个例子:
说我已经采取了table_1
;按天对其进行分区并将其聚类,shop
我尝试使用shop
in列表table_2
(非聚类或分区)从我的聚类字段中过滤table_1
。
然后,当我查询类似:
SELECT shop, COUNT(id) count_id
FROM table_1
WHERE shop IN (SELECT shop FROM table_2 ORDER BY shop)
GROUP BY shop
我得到了 8.9GB 的完整上限处理。
我的处理时间应该要少得多;table_1
包含 10m 行商店名称,并且table_2
仅包含 2m 行。
请注意,当我查询类似:
SELECT shop, COUNT(id) count_id
FROM table_1
WHERE shop IN (SELECT shop FROM table_2 ORDER BY shop LIMIT 10000)
GROUP BY shop
我处理像230MB?
在第二个查询中;我将我的行限制为 10k,这似乎可行,但如果table_1
包含 10m 行并table_1
包含 2m 行,那么我已经将它缩小到最大 2m 行,对吧?
我的主要任务是:在不处理整个上限的情况下,我的集群字段可以扫描多少个阈值?
希望一切都有意义!如果没有,请告诉我,我会尝试重新解释。
谢谢你。