1

在 hadoop 中,我只是在使用这两种格式来评估 hive 查询的性能。当我对存储为 TEXT 文件的表进行查询时,我最终得到的结果比存储为序列文件的结果更早。但不应该反过来吗?另外,仅供参考,我首先在 TEXT File 表中加载数据,然后在 SEQUENCEFILE 表中传输数据。

创建表文本(酸 int,值字符串,id int)行格式分隔字段由'〜'存储为文本文件;

创建表 seq(acid int, value string, id int) STORED AS SEQUENCEFILE;

加载数据本地路径'-----'覆盖到表格文本中;

插入到表序列中选择 * 从文本中;

Text FILE :
Time taken: 36.284 seconds
       Vs
SequenceFile : 
Time taken: 42.446 seconds

Text FILE :
Time taken: 22.547 seconds
      Vs
SequenceFile : 
Time taken: 25.547 seconds
4

1 回答 1

0

哪个更快取决于许多因素,序列文件的优点是您可以压缩它们并且文件仍然可以拆分,而如果您压缩文本文件,它们将不再可拆分(除非您使用的是 LZO)。

于 2013-07-01T06:31:23.053 回答