1

我对要加载到 HAWQ 的表的存储大小计算/估计有疑问?

我在 HIVE 中有一个 30MB 的表,我正在尝试使用 PXF 将其加载到 HAWQ 中,例如:create table t2 tablespace data as select * from hcatalog.default.afs_trvn_mktscn_population;

HAWQ 中的表占用了 369MB 的存储空间?不管我有多少 HAWQ 段以及 HAWQ DFS.replica 因子或 HDFS 复制因子是多少?在我的情况下,即使有 4 个 HAWQ 段或 1 个 HAWQ 段,加载后表的大小也是 369MB。

我可以理解最小块大小是 128MB,所以即使 30MB 也会使用最小 128MB,但为什么 > 300MB?

你能分享一些这方面的信息吗?

4

1 回答 1

1

您的 Hive 表可能存储为带有 Snappy 压缩的 ORC,而您的 HAWQ 表甚至没有被压缩。你应该在你的 HAWQ 表中使用它:

with (appendonly=true, orientation=parquet, compresstype=snappy) 
于 2016-11-28T16:28:03.737 回答