我正在创建一个查询以在一个非常大的 Hive 表上运行(每天插入数百万行)。
我需要检查(在添加行之后,而不是之前)是否有重复项。我想知道下面是否是最有效的方法,或者我是否应该检查新插入的行是否与现有数据重复。例如,这可以通过 OVER 子句来完成吗?还是没有效率提升?
表在加载日期进行分区,我使用 tez。
select
col1,
count(*) as col1_count
from database.table
group by col1
having count(*) >=2;