我希望使用另一种方法来压缩文件以提高读/写性能,我探索的途径之一是使用 Snappy 压缩。
到目前为止,它一直很好,并且已经能够将其放入 HDFS 并使用 -text 命令解压缩以查看值。真正的问题发生在我尝试将数据导入配置单元时。
当我将数据导入配置单元时,我创建了一个简单的外部表以及设置参数以读取 Snappy 压缩文件......
SET hive.exec.compress.output=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
SET mapred.output.compression.type=BLOCK;
CREATE EXTERNAL TABLE IF NOT EXISTS test(...
..
)
LOCATION '/user/.../'
当我从测试中运行 SELECT COUNT(*) 时;我得到正确的行值;但是,如果我运行 SELECT * FROM test limit 100; 我看到的都是 NULL 值。为什么会这样?有什么想法吗?