sql - 通过均匀跳过行来选择固定的行数

Question

我正在尝试编写一个返回任意大小的代表性数据样本的查询。我想通过只选择第 n 行来做到这一点，^其中n 使得整个结果集尽可能接近任意大小。

我希望这在结果集通常小于任意大小的情况下工作。在这种情况下，应该返回整个结果集。

我发现了这个问题，它显示了如何选择每 n^行。

这是我到目前为止所拥有的：

SELECT * FROM (
   SELECT *, ((row_number() OVER (ORDER BY "time"))
               % ceil(count(*)::FLOAT / 500::FLOAT)::BIGINT) AS rn
   FROM data_raw) sa
WHERE sa.rn=0;

这会导致以下错误：

错误：列“data_raw.serial”必须出现在 GROUP BY 子句中或用于聚合函数位置：23

删除这样的计算n：

SELECT * FROM (
   SELECT *, (row_number() OVER (ORDER BY "time"))
              % 50 AS rn FROM data_raw) sa
LIMIT 500;

我还尝试将计算移至 WHERE 子句：

SELECT * FROM (
   SELECT *, (row_number() OVER (ORDER BY "time")) AS rn
   FROM data_raw) sa
WHERE (sa.rn % ceil(count(*)::FLOAT / 500::FLOAT)::BIGINT)=0;

这也会导致错误：

错误：在 WHERE 位置中不允许使用聚合函数：108

有没有人对如何修复我的查询或更好的方法有任何想法？

我也考虑过使用随机数和概率来选择行，但我宁愿做一些确定性的事情，而不会出现聚集的可能性。

score 1 · Accepted Answer

您应该将该计算作为子查询：

WHERE rn % (SELECT CEIL(COUNT(*)::FLOAT / 500:FLOAT)::BIGINT FROM data_raw) = 0

这样，它不再被视为一个聚合函数，而是一个标量查询。

score 1 · Accepted Answer

您第一次尝试的错误是您不能将聚合函数count(*)与未聚合的行选择混合。您可以改为使用count()as window-aggregate 函数来解决此问题：

SELECT * FROM (
   SELECT *, ((row_number() OVER (ORDER BY "time"))
               % ceil(count(*) OVER () / 500.0)::int) AS rn
   FROM   data_raw
   ) sub
WHERE sub.rn = 0;

详细解释在这里：

在应用 LIMIT 之前获取结果计数的最佳方法

@Alexander为您的最后一次尝试提供了修复。

sql - 通过均匀跳过行来选择固定的行数

2 回答 2

Related

Reference