hadoop - Hive - 针对大表检查一个分区上的重复项的最有效方法

翻译自：https://stackoverflow.com/questions/42275381 2017-02-16T13:29:50.540

2591 次

我正在创建一个查询以在一个非常大的 Hive 表上运行（每天插入数百万行）。

我需要检查（在添加行之后，而不是之前）是否有重复项。我想知道下面是否是最有效的方法，或者我是否应该检查新插入的行是否与现有数据重复。例如，这可以通过 OVER 子句来完成吗？还是没有效率提升？

表在加载日期进行分区，我使用 tez。

select 
col1, 
count(*) as col1_count 
from database.table
group by col1
having count(*) >=2;

0 回答 0