我在 Hive 有一张桌子。
当我运行命令show tblproperties myTableName
时,它给出以下结果:
numFiles 12
numRows 1688092
rawDataSize 934923162
totalSize 936611254
这意味着rawDataSize is 934.92 MB and totalSize is 936.61 MB
当我运行命令来计算同一张表的 HDFS 表位置的数据大小时。
[user@server1 ~]$ hdfs dfs -du -h -s /apps/hive/warehouse/test.db/myTableName
893.2 M /apps/hive/warehouse/test.db/myTableName
结果数据大小为893.2 MB
我看到同一张表的数据大小有很大差异。我试图理解为什么同一张表的数据大小会有所不同,并寻找详细的解释。
表类型 - MANAGED_TABLE
# 存储信息
SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat: org.apache.hadoop.mapred.TextInputFormat
OutputFormat: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Compressed: No
Num Buckets: -1