0

我正在运行一个查询,但我对 HiveQL 中的子查询概念有些困惑。我是 Hive 的新手,我已经阅读了很多资料,但我仍然无法让它发挥作用。

所以我有一张大桌子,上面有我感兴趣的字段created_datesize. 所以我基本上想运行一个特定年份创建的文件大小的总和,并按不同的年份分组。

我目前的查询:

SELECT year(created_date), SUM(size) FROM <tablename> GROUP BY created_date

2001    2654567
2001    231818 
2001    1978222 
2002    7625332 
2002    6272829 
2003    2733792

这给了我一个表中所有年份的列表以及上面每年的总和,但我有重复的年份,这是我需要对SELECT DISTINCT年份和总和进行子查询的地方size

请提供任何帮助。

4

1 回答 1

0

您可能想尝试按年份分组,(因为这是您选择的)。

SELECT year(created_date), SUM(size) FROM <tablename> GROUP BY year(created_date)
于 2013-11-01T15:30:12.643 回答