sql-server - 使用 SQL Server 进行慢速 SQL 查询

Question

我有两个 SQL 查询来计算不同 id1 值中 id2 值之间的共现。示例表看起来像

所需的输出是：

两种解决方案都粘贴在下面。

-- Solution 1
SELECT bar.id2 AS A, foo.id2 AS B, COUNT(*) AS Count
FROM
  (SELECT * FROM TestTab) AS bar,
  (SELECT * FROM TestTab) AS foo
WHERE bar.id1 <> foo.id1
  AND bar.id2 < foo.id2
GROUP BY bar.id2, foo.id2

-- Solution 2
SELECT bar.id2 AS A, foo.id2 AS B, COUNT(*) AS Count
FROM TestTab AS bar
JOIN TestTab AS foo
  ON bar.id1 <> foo.id1
WHERE bar.id2 < foo.id2
GROUP BY bar.id2, foo.id2

这两个查询都适用于小表（即 100 - 1000 行），但我需要查询更大的表（例如 100.000 行）。我想知道如何加快查询速度并提高性能。在此先感谢您的任何指点。

- Create table TestTab and insert dummy data
CREATE TABLE TestTab
INSERT INTO TestTab VALUES
  (101,1),
  (101,2),
  (101,3),
  (102,2),
  (102,3),
  (102,4),
  (103,15),
  (103,3),
  (103,4)

score 3 · Accepted Answer

我建议在id2TestTab 上添加一个索引（如果尚不存在），然后尝试运行以下命令：

select distinct id2 into #id2 from TestTab;

SELECT bar.id2 AS A, foo.id2 AS B, COUNT(*) AS Count
FROM #id2 AS bar
JOIN #id2 AS foo ON bar.id2 < foo.id2
JOIN TestTab AS buz ON bar.id2 = buz.id2
JOIN TestTab AS fuz ON foo.id2 = fuz.id2
WHERE buz.id1 <> fuz.id1
GROUP BY bar.id2, foo.id2;

（如果您已经有一个具有不同 id2 值的表，请跳过创建临时表并改用它。）

score 1 · Accepted Answer

这两个查询都是连接和等价的。

第一个是带有附加子选择的隐式连接。如果 SQL Server 不优化子选择，它可能会更慢。

正如其他人已经观察到的那样，将索引添加到连接条件列id1和 where 子句列id2（如果您还没有这样做的话）。

sql-server - 使用 SQL Server 进行慢速 SQL 查询

2 回答 2

Related

Reference