8

我目前正在使用 Hive 进行一些数据探索,无法解释以下行为。假设我有一个带有 master_id 字段的表(名为 mytable)。

当我计算得到的行数时

select count(*) as c from mytable 
c
1129563

如果我想计算具有非空 master_id 的行数,我会得到一个更高的数字

select count(*) as c from mytable where master_id is not null
c
1134041

此外,master_id 似乎永远不会为空。

select count(*) as c from mytable where master_id is null
c
0

我无法解释如何添加 where 语句最终会增加行数。有没有人有任何暗示来解释这种行为?

谢谢

4

1 回答 1

10

很可能您的查询没有 where 正在使用统计信息,因为设置了此参数:

set hive.compute.query.using.stats=true;

尝试将其设置为 false 并再次执行。

或者,您可以计算表上的统计信息。请参阅分析表语法

也可以在 INSERT OVERWRITE 期间自动收集统计信息:

set hive.stats.autogather=true;
于 2016-10-07T09:44:55.797 回答