hadoop - 文本文件与序列文件

Question

在 hadoop 中，我只是在使用这两种格式来评估 hive 查询的性能。当我对存储为 TEXT 文件的表进行查询时，我最终得到的结果比存储为序列文件的结果更早。但不应该反过来吗？另外，仅供参考，我首先在 TEXT File 表中加载数据，然后在 SEQUENCEFILE 表中传输数据。

创建表文本（酸 int，值字符串，id int）行格式分隔字段由'〜'存储为文本文件；

创建表 seq(acid int, value string, id int) STORED AS SEQUENCEFILE;

加载数据本地路径'-----'覆盖到表格文本中；

插入到表序列中选择 * 从文本中；

Text FILE :
Time taken: 36.284 seconds
       Vs
SequenceFile : 
Time taken: 42.446 seconds

Text FILE :
Time taken: 22.547 seconds
      Vs
SequenceFile : 
Time taken: 25.547 seconds

score 0 · Accepted Answer

哪个更快取决于许多因素，序列文件的优点是您可以压缩它们并且文件仍然可以拆分，而如果您压缩文本文件，它们将不再可拆分（除非您使用的是 LZO）。

hadoop - 文本文件与序列文件

1 回答 1

Related

Reference