sql - 使用 group by 查找数组中最常见的元素

Question

我有一个具有以下结构的行表，name TEXT, favorite_colors TEXT[], group_name INTEGER其中每一行都有一个每个人最喜欢的颜色的列表以及该人所属的组。我怎样才能GROUP BY group_name返回每组中最常见颜色的列表？

你能做一个组合int[] && int[]来设置重叠，int[] & int[]得到交叉点，然后再计算和排名吗？

score 6 · Accepted Answer

又快又脏：

SELECT group_name, color, count(*) AS ct
FROM (
   SELECT group_name, unnest(favorite_colors) AS color
   FROM   tbl
   ) sub
GROUP  BY 1,2
ORDER  BY 1,3 DESC;

更好的`LATERAL JOIN`

在 Postgres 9.3 或更高版本中，这是更简洁的形式：

SELECT group_name, color, count(*) AS ct
FROM   tbl t, unnest(t.favorite_colors) AS color
GROUP  BY 1,2
ORDER  BY 1,3 DESC;

以上是简写

...
FROM tbl t
JOIN LATERAL unnest(t.favorite_colors) AS color ON TRUE
...

和任何其他一样INNER JOIN，它会排除没有颜色 ( favorite_colors IS NULL) 的行 - 就像第一个查询一样。

要在结果中包含此类行，请改用：

SELECT group_name, color, count(*) AS ct
FROM   tbl t
LEFT   JOIN LATERAL unnest(t.favorite_colors) AS color ON TRUE
GROUP  BY 1,2
ORDER  BY 1,3 DESC;

您可以在下一步中轻松聚合每组“最常见”的颜色，但您需要先定义“最常见的颜色”......

最常见的颜色

根据评论，选择出现 > 3 次的颜色。

SELECT t.group_name, color, count(*) AS ct
FROM   tbl t, unnest(t.favorite_colors) AS color
GROUP  BY 1,2
HAVING count(*) > 3
ORDER  BY 1,3 DESC;

要聚合数组中的顶部颜色（按降序排列）：

SELECT group_name, array_agg(color) AS top_colors
FROM  (
   SELECT group_name, color
   FROM   tbl t, unnest(t.favorite_colors) AS color
   GROUP  BY 1,2
   HAVING count(*) > 3
   ORDER  BY 1, count(*) DESC
   ) sub
GROUP BY 1;

-> SQLfiddle演示了所有内容。

sql - 使用 group by 查找数组中最常见的元素

1 回答 1

更好的LATERAL JOIN

最常见的颜色

Related

Reference

更好的`LATERAL JOIN`