hadoop - HAWQ 表大小估计

Question

我对要加载到 HAWQ 的表的存储大小计算/估计有疑问？

我在 HIVE 中有一个 30MB 的表，我正在尝试使用 PXF 将其加载到 HAWQ 中，例如：create table t2 tablespace data as select * from hcatalog.default.afs_trvn_mktscn_population;

HAWQ 中的表占用了 369MB 的存储空间？不管我有多少 HAWQ 段以及 HAWQ DFS.replica 因子或 HDFS 复制因子是多少？在我的情况下，即使有 4 个 HAWQ 段或 1 个 HAWQ 段，加载后表的大小也是 369MB。

我可以理解最小块大小是 128MB，所以即使 30MB 也会使用最小 128MB，但为什么 > 300MB？

你能分享一些这方面的信息吗？

score 1 · Accepted Answer

您的 Hive 表可能存储为带有 Snappy 压缩的 ORC，而您的 HAWQ 表甚至没有被压缩。你应该在你的 HAWQ 表中使用它：

with (appendonly=true, orientation=parquet, compresstype=snappy)

1 回答 1