0

我在 Hive 有一张桌子。

当我运行命令show tblproperties myTableName时,它给出以下结果:

numFiles        12
numRows         1688092
rawDataSize     934923162
totalSize       936611254

这意味着rawDataSize is 934.92 MB and totalSize is 936.61 MB

当我运行命令来计算同一张表的 HDFS 表位置的数据大小时。

[user@server1 ~]$ hdfs dfs -du -h -s /apps/hive/warehouse/test.db/myTableName
893.2 M  /apps/hive/warehouse/test.db/myTableName

结果数据大小为893.2 MB

我看到同一张表的数据大小有很大差异。我试图理解为什么同一张表的数据大小会有所不同,并寻找详细的解释。

表类型 - MANAGED_TABLE

# 存储信息

SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat:            org.apache.hadoop.mapred.TextInputFormat
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Compressed:             No
Num Buckets:            -1
4

1 回答 1

3

936611254 / 1024 / 1024 = 893.2 M

于 2017-04-19T09:13:50.550 回答