在 hadoop 中,我只是在使用这两种格式来评估 hive 查询的性能。当我对存储为 TEXT 文件的表进行查询时,我最终得到的结果比存储为序列文件的结果更早。但不应该反过来吗?另外,仅供参考,我首先在 TEXT File 表中加载数据,然后在 SEQUENCEFILE 表中传输数据。
创建表文本(酸 int,值字符串,id int)行格式分隔字段由'〜'存储为文本文件;
创建表 seq(acid int, value string, id int) STORED AS SEQUENCEFILE;
加载数据本地路径'-----'覆盖到表格文本中;
插入到表序列中选择 * 从文本中;
Text FILE :
Time taken: 36.284 seconds
Vs
SequenceFile :
Time taken: 42.446 seconds
Text FILE :
Time taken: 22.547 seconds
Vs
SequenceFile :
Time taken: 25.547 seconds