18

刚收到一个小问题。尝试获取表的单个最大值时。哪一个更好?

SELECT MAX(id) FROM myTable WHERE (whatever)

或者

SELECT TOP 1 id FROM myTable WHERE (whatever) ORDER BY id DESC

我正在使用 Microsoft SQL Server 2012

4

4 回答 4

34

没有区别,因为您可以通过检查执行计划来测试自己。如果id是聚集索引,您应该看到有序聚集索引扫描;如果它没有被索引,您仍然会看到表扫描或聚集索引扫描,但在任何一种情况下都不会对其进行排序。

如果您想从行中提取其他值,该TOP 1方法可能很有用,这比在子查询中提取最大值然后加入要容易。如果您想要该行中的其他值,您需要指定如何处理这两种情况下的关系。

话虽如此,但在某些情况下,计划可能会有所不同,因此根据列是否被索引以及是否单调增加来进行测试很重要。我创建了一个简单的表并插入了 50000 行:

CREATE TABLE dbo.x
(
  a INT, b INT, c INT, d INT, 
  e DATETIME, f DATETIME, g DATETIME, h DATETIME
);
CREATE UNIQUE CLUSTERED INDEX a ON dbo.x(a);
CREATE INDEX b ON dbo.x(b)
CREATE INDEX e ON dbo.x(e);
CREATE INDEX f ON dbo.x(f);

INSERT dbo.x(a, b, c, d, e, f, g, h)
SELECT 
  n.rn, -- ints monotonically increasing
  n.a,  -- ints in random order
  n.rn, 
  n.a, 
  DATEADD(DAY, n.rn/100, '20100101'), -- dates monotonically increasing
  DATEADD(DAY, -n.a % 1000, '20120101'),     -- dates in random order
  DATEADD(DAY, n.rn/100, '20100101'),
  DATEADD(DAY, -n.a % 1000, '20120101')
FROM
(
  SELECT TOP (50000) 
     (ABS(s1.[object_id]) % 10000) + 1, 
     rn = ROW_NUMBER() OVER (ORDER BY s2.[object_id])
  FROM sys.all_objects AS s1 
  CROSS JOIN sys.all_objects AS s2
) AS n(a,rn);
GO

在我的系统上,这在 a/c 中创建了从 1 到 50000 的值,b/d 在 3 到 9994 之间,e/g 从 2010-01-01 到 2011-05-16,f/h 从 2009-04-28 到2012-01-01。

首先,让我们比较索引单调递增的整数列 a 和 c。a 有一个聚集索引, c 没有:

SELECT MAX(a) FROM dbo.x;
SELECT TOP (1) a FROM dbo.x ORDER BY a DESC;

SELECT MAX(c) FROM dbo.x;
SELECT TOP (1) c FROM dbo.x ORDER BY c DESC;

结果:

在此处输入图像描述

第 4 个查询的最大问题是,与 不同MAX,它需要排序。这是 3 与 4 的对比:

在此处输入图像描述

在此处输入图像描述

这将是所有这些查询变体中的一个常见问题:MAX针对未索引列将能够捎带聚集索引扫描并执行流聚合,同时TOP 1需要执行更昂贵的排序。

我进行了测试,并在测试 b+d、e+g 和 f+h 中看到了完全相同的结果。

因此,在我看来,除了生成更多符合标准的代码之外,使用依赖于基础表和索引(在您将代码投入生产后可能会改变),还有潜在的性能MAX优势TOP 1。所以我想说,如果没有进一步的信息,那MAX是更可取的。

(正如我之前所说TOP 1,如果您要拉额外的列,可能真的是您所追求的行为。如果那是您所追求的,您也需要测试MAX+JOIN方法。)

于 2012-07-01T20:35:03.643 回答
6

第一个的意图当然更清楚。

对于这个特定的查询不应该有显着的性能差异(它们实际上应该几乎相同,即使如果没有行,结果是不同的myTable)。除非您有充分的理由来调整查询(例如已证实的性能问题),否则请始终选择能显示代码意图的查询。

于 2012-07-01T20:30:39.667 回答
4

所有称职的查询优化器都应该为两个查询生成具有相同性能的查询计划:如果正在优化的列上有索引,则两个查询都应该使用它;如果没有索引,两者都会产生全表扫描。

于 2012-07-01T20:31:24.880 回答
0

虽然我怀疑 TOP 1 排序运算符在计划中的成本过高。我尝试了 TOP 1、TOP 100 和 > 和 TOP 101,尽管最后一个 > 需要对所有行进行排序,但它们都给了我相同的估计子树成本。——马丁·史密斯 7 月 2 日 6:53

无论您需要 1 行还是 100 行,优化器都必须在此示例中执行相同数量的工作,即从表中读取所有行(聚集索引扫描)。然后对所有这些行进行排序(排序操作),因为C列..最后只显示需要哪一个。

SELECT TOP (1) b FROM dbo.x ORDER BY b DESC
option(recompile); 
SELECT TOP (100) b FROM dbo.x ORDER BY b DESC
option(recompile); 

试试上面的代码,这里前 1 和前 100 显示差异成本,因为 b 列上有一个索引。因此,在这种情况下,您不需要读取所有行并对它们进行排序,但工作是转到最后一页指针。对于一行,读取索引最后一页上的最后一行。TFor 100 行找到最后一页的最后一行,然后开始向后扫描,直到获得 100 行。

于 2012-07-13T14:44:34.310 回答