在 PostgreSQL 中,在合理的列表长度上通常会有相当小的差异,尽管IN
在概念上更清晰。非常长的AND ... <> ...
列表和非常长的NOT IN
列表都表现AND
得很糟糕,比NOT IN
.
在这两种情况下,如果它们足够长,您甚至可以提出问题,那么您应该对值列表进行反连接或子查询排除测试。
WITH excluded(item) AS (
VALUES('item1'), ('item2'), ('item3'), ('item4'),('item5')
)
SELECT *
FROM thetable t
WHERE NOT EXISTS(SELECT 1 FROM excluded e WHERE t.item = e.item);
或者:
WITH excluded(item) AS (
VALUES('item1'), ('item2'), ('item3'), ('item4'),('item5')
)
SELECT *
FROM thetable t
LEFT OUTER JOIN excluded e ON (t.item = e.item)
WHERE e.item IS NULL;
(在现代 Pg 版本上,无论如何都会产生相同的查询计划)。
如果值列表足够长(数万个项目),那么查询解析可能会开始产生巨大的成本。此时,您应该考虑创建一个TEMPORARY
表,COPY
将要排除的数据放入其中,可能在其上创建一个索引,然后在临时表上使用上述方法之一而不是 CTE。
演示:
CREATE UNLOGGED TABLE exclude_test(id integer primary key);
INSERT INTO exclude_test(id) SELECT generate_series(1,50000);
CREATE TABLE exclude AS SELECT x AS item FROM generate_series(1,40000,4) x;
exclude
要省略的值列表在哪里。
然后,我将相同数据上的以下方法与所有结果(以毫秒为单位)进行比较:
NOT IN
列表:3424.596
AND ...
列表:80173.823
VALUES
基于JOIN
排除:20.727
VALUES
基于子查询排除:20.495
- 基于表
JOIN
,前列表中没有索引:25.183
- 基于子查询表,前列表上没有索引:23.985
... 使基于 CTE 的方法比列表快三千多倍,比AND
列表快 130 倍NOT IN
。
代码在这里:https ://gist.github.com/ringerc/5755247 (请保护你的眼睛,你们谁关注这个链接)。
对于这个数据集大小,在排除列表上添加索引没有任何区别。
笔记:
IN
生成的列表SELECT 'IN (' || string_agg(item::text, ',' ORDER BY item) || ')' from exclude;
AND
SELECT string_agg(item::text, ' AND item <> ') from exclude;
用)生成的列表
- 在重复运行中,基于子查询和连接的表排除几乎相同。
- 对计划的检查表明 Pg 转化
NOT IN
为<> ALL
所以......你可以看到两者和列表之间确实存在巨大的差距,而不是进行正确的连接。令我惊讶的是,使用列表的 CTE 执行速度有多快……解析列表几乎不需要任何时间,在大多数测试中执行的速度与表格方法相同或略快。IN
AND
VALUES
VALUES
如果 PostgreSQL 能够自动识别一个荒谬的长IN
子句或类似AND
条件的链并切换到更智能的方法,例如进行散列连接或隐式将其转换为 CTE 节点,那就太好了。现在它不知道该怎么做。
也可以看看: