假设您有一个名为 tracker 的表,其中包含以下记录。
issue_id | ingest_date | verb,status
10 2015-01-24 00:00:00 1,1
10 2015-01-25 00:00:00 2,2
10 2015-01-26 00:00:00 2,3
10 2015-01-27 00:00:00 3,4
11 2015-01-10 00:00:00 1,3
11 2015-01-11 00:00:00 2,4
我需要以下结果
10 2015-01-26 00:00:00 2,3
11 2015-01-11 00:00:00 2,4
我正在尝试这个查询
select *
from etl_change_fact
where ingest_date = (select max(ingest_date)
from etl_change_fact);
但是,这只给了我
10 2015-01-26 00:00:00 2,3
这个记录。
但是,我想要所有唯一的记录(change_id)
(a) max(ingest_date) 和
(b) 动词列优先级为(2 - 第一个首选,1 - 第二个首选,3 - 最后一个首选)
因此,我需要以下结果
10 2015-01-26 00:00:00 2,3
11 2015-01-11 00:00:00 2,4
请帮助我有效地查询它。
PS:我不会索引 ingest_date,因为我将在分布式计算设置中将其设置为“分发密钥”。我是数据仓库和查询的新手。
因此,请帮助我以优化方式访问我的 TB 大小的数据库。