我将日志文件作为文本存储在 HDFS 中。当我将日志文件加载到 Hive 表中时,所有文件都被复制。
我可以避免将所有文本数据存储两次吗?
编辑:我通过以下命令加载它
LOAD DATA INPATH '/user/logs/mylogfile' INTO TABLE `sandbox.test` PARTITION (day='20130221')
然后,我可以在以下位置找到完全相同的文件:
/user/hive/warehouse/sandbox.db/test/day=20130220
我以为是抄的。