mysql - 使用解释扩展理解 mysql 查询的性能

Question

我试图了解使用 MySQL 的 SQL 查询的性能。只有 PK 上的索引，查询未能在 10 多分钟内完成。我已经在 where 子句（时间戳、主机名、路径、类型）中使用的所有列上添加了索引，现在查询在大约 50 秒内完成——但是对于看起来不太复杂的查询来说，这似乎仍然需要很长时间。

所以，我想了解导致这种情况的查询是什么。我的假设是我的内部子查询在某种程度上导致了必要比较次数的爆炸式增长。

涉及到两个表：

存储（约 5,000 行 / 4.6MB）和机器（12 行，<4k）

查询如下：

SELECT T.hostname, T.path, T.used_pct, 
      T.used_gb, T.avail_gb, T.timestamp, machines.type AS type
      FROM storage AS T
      JOIN machines ON T.hostname = machines.hostname
      WHERE timestamp = ( SELECT max(timestamp) FROM storage AS st
                            WHERE st.hostname = T.hostname AND
                                              st.path = T.path)
      AND (machines.type = 'nfs')
      ORDER BY used_pct DESC

查询的 EXPLAIN EXTENDED 返回以下内容：

id       select_type        table     type       possible_keys        key          key_len    ref                            rows     filtered      Extra
1        PRIMARY            machines  ref        hostname,type        type         768        const                          1        100.00        Using where; Using temporary; Using filesort
1        PRIMARY            T         ref        fk_hostname          fk_hostname  768        monitoring.machines.hostname   4535     100.00        Using where
2        DEPENDENT SUBQUERY st        ref        fk_hostname,path     path         1002       monitoring.T.path              648      100.00        Using where

注意到第 1 行的“额外”列包括“使用文件排序”和问题： MySQL 解释查询理解指出“使用文件排序是一种排序算法，其中 MySQL 无法使用索引进行排序，因此无法执行在内存中完成排序。”

这个查询的性质是什么导致性能下降？

为什么 MySQL 必须为此查询使用“文件排序”？

score 3 · Accepted Answer

索引不会被填充，一旦您创建它们，它们就在那里。这就是为什么插入和更新会随着表上的索引越多而变慢。

您的查询在第一次之后运行很快，因为查询的整个结果都放入缓存中。要查看不使用缓存的查询有多快，您可以执行

SELECT SQL_NO_CACHE T.hostname ...

MySQLfilesort通常使用 forORDER BY或在您的情况下确定时间戳的最大值。MySQL 不是遍历所有可能的值并记住哪个值最大，而是对值进行降序排序并选择第一个值。

那么，为什么您的查询速度很慢？有两件事跃入我的眼帘。

1）你的子查询

  WHERE timestamp = ( SELECT max(timestamp) FROM storage AS st
                        WHERE st.hostname = T.hostname AND
                                          st.path = T.path)

对每个（主机名，路径）进行评估。尝试使用时间戳索引（顺便说一句，我不鼓励命名诸如关键字/数据类型之类的列）。如果仅此一项没有帮助，请尝试重写您的查询。MySQL 手册中有两个很好的例子：The Rows Hold the Group-wise Maximum of a certain Column。

2) 这是一个小问题，但您似乎正在加入 char/varchar 字段。数字/身份证要快得多。

mysql - 使用解释扩展理解 mysql 查询的性能

1 回答 1

Related

Reference