我的 Hive 仓库中有大约 TB 的数据,正在尝试为它们启用快速压缩。我知道我们可以使用启用配置单元压缩
hive> SET hive.exec.compress.output=true;
hive> SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
在将数据加载到配置单元时,但是我如何压缩已经加载的数据。
Hive ORCFile 支持压缩存储。要将现有数据转换为 ORCFile,请创建一个与源表具有相同架构并存储为 orc 的新表,见下文:-
CREATE TABLE A_ORC (
customerID int, name string, ..etc
) STORED AS ORC tblproperties (“orc.compress" = “SNAPPY”);
INSERT INTO A_ORC SELECT * FROM A;
这里A_ORC是新表,A是源表
在这里您可以了解有关 ORCFile的更多信息。