我已经将一堆 .gz 文件加载到 HDFS 中,当我在它们之上创建一个原始表时,我在计算行数时看到了奇怪的行为。将 gz 表中的 count(*) 结果与未压缩表的结果进行比较,结果差异约为 85%。压缩文件 gz 的表记录较少。有人见过这个吗?
CREATE EXTERNAL TABLE IF NOT EXISTS test_gz(
col1 string, col2 string, col3 string)
ROW FORMAT DELIMITED
LINES TERMINATED BY '\n'
LOCATION '/data/raw/test_gz'
;
select count(*) from test_gz; result 1,123,456
select count(*) from test; result 7,720,109