我正在运行一个查询,但我对 HiveQL 中的子查询概念有些困惑。我是 Hive 的新手,我已经阅读了很多资料,但我仍然无法让它发挥作用。
所以我有一张大桌子,上面有我感兴趣的字段created_date
和size
. 所以我基本上想运行一个特定年份创建的文件大小的总和,并按不同的年份分组。
我目前的查询:
SELECT year(created_date), SUM(size) FROM <tablename> GROUP BY created_date
2001 2654567
2001 231818
2001 1978222
2002 7625332
2002 6272829
2003 2733792
这给了我一个表中所有年份的列表以及上面每年的总和,但我有重复的年份,这是我需要对SELECT DISTINCT
年份和总和进行子查询的地方size
。
请提供任何帮助。