好吧,这是一个非常古老的问题,从未得到真正的解决方案。我们想要一个包含大约 30k 条记录的表中的 3 个随机行。从 MySQL 的角度来看,这张表并没有那么大,但如果它代表一个商店的产品,它就具有代表性。例如,当一个人在网页中呈现 3 个随机产品时,随机选择很有用。我们想要一个满足这些条件的单一 SQL 字符串解决方案:
- 在 PHP 中,PDO 或 MySQLi 的记录集必须正好有 3 行。
- 它们必须通过不使用存储过程的单个 MySQL 查询来获得。
- 解决方案必须快速,例如繁忙的 apache2 服务器,MySQL 查询在许多情况下是瓶颈。所以它必须避免创建临时表等。
- 这 3 条记录必须不连续,即它们不能彼此相邻。
该表具有以下字段:
CREATE TABLE Products (
ID INT(8) NOT NULL AUTO_INCREMENT,
Name VARCHAR(255) default NULL,
HasImages INT default 0,
...
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
WHERE 约束是 Products.HasImages=1 允许仅获取具有可在网页上显示的图像的记录。大约三分之一的记录满足 HasImages=1 的条件。
寻找完美,我们首先抛开现有的存在缺陷的解决方案:
I.这个使用 ORDER BY RAND() 的基本解决方案,
太慢了,但在每个查询中保证 3 个真正随机的记录:
SELECT ID, Name FROM Products WHERE HasImages=1 ORDER BY RAND() LIMIT 3;
*CPU 约 0.10s,扫描 9690 行,因为 WHERE 子句,使用 where;使用临时的;在 Debian Squeeze 双核 Linux 机器上使用 filesort,还不错,但是
不像使用临时表和文件排序那样可扩展到更大的表,并且在测试 Windows7::MySQL 系统上的第一个查询需要 8.52 秒。如此糟糕的性能,避免网页不是吗?
二、riedsio使用 JOIN ... RAND()的明亮解决方案,
从MySQL select 10 random rows from 600K rows fast,此处改编仅对单个随机记录有效,因为以下查询导致几乎总是连续的记录。实际上,它仅在 ID 中获得一组随机的 3 条连续记录:
SELECT Products.ID, Products.Name
FROM Products
INNER JOIN (SELECT (RAND() * (SELECT MAX(ID) FROM Products)) AS ID)
AS t ON Products.ID >= t.ID
WHERE (Products.HasImages=1)
ORDER BY Products.ID ASC
LIMIT 3;
*CPU 大约 0.01 - 0.19s,随机扫描 3200、9690、12000 行左右,但大多是 9690 条记录,使用 where。
三、最好的解决方案似乎是 WHERE ... RAND(),
在 MySQL 上看到从bernardo-siu提出的600K 行中选择 10 个随机行:
SELECT Products.ID, Products.Name FROM Products
WHERE ((Products.Hasimages=1) AND RAND() < 16 * 3/30000) LIMIT 3;
*CPU 大约 0.01 - 0.03s,扫描 9690 行,使用 where。
这里3是希望的行数,30000是表Products的RecordCount,16是扩大选择的实验系数,以保证3条记录的选择。我不知道在什么基础上因子16是可以接受的近似值。
在大多数情况下,我们得到了 3 条随机记录,而且速度非常快,但没有保证:有时查询只返回 2 行,有时甚至根本没有记录。
上面三种方法扫描了满足 WHERE 子句的表的所有记录,这里是 9690 行。