1

我的 Hive 仓库中有大约 TB 的数据,正在尝试为它们启用快速压缩。我知道我们可以使用启用配置单元压缩

hive> SET hive.exec.compress.output=true;
hive> SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

在将数据加载到配置单元时,但是我如何压缩已经加载的数据。

4

1 回答 1

1

Hive ORCFile 支持压缩存储。要将现有数据转换为 ORCFile,请创建一个与源表具有相同架构并存储为 orc 的新表,见下文:-

CREATE TABLE A_ORC ( 
    customerID int, name string, ..etc 
) STORED AS ORC tblproperties (“orc.compress" = “SNAPPY”); 

INSERT INTO A_ORC SELECT * FROM A; 

这里A_ORC是新表,A是源表

在这里您可以了解有关 ORCFile的更多信息。

于 2015-05-25T10:13:15.440 回答