hadoop - Lzo 文件没有在 Hive 作业中拆分

Question

我们在 s3 中有 3 个 .lzo 文件和相应的 .index 文件。我们正在这些文件的目录上创建一个外部表。每个 lzo 文件的大小为 100MB+，每个文件的未压缩大小为 800+MB 块大小为 128MB。当我们运行 hive 查询时，不幸的是只生成了 3 个映射器，这表明没有发生拆分，这可能是什么问题？

score 1 · Accepted Answer

仅当压缩文件的大小大于拆分大小时，可拆分才适用。Hive 默认拆分大小为 256 MB。

在 hive 会话中修改拆分大小并运行查询。

set mapreduce.input.fileinputformat.split.minsize=64000000

score 0 · Accepted Answer

一切都设置为 30MB。

set mapreduce.input.fileinputformat.split.maxsize=31457280;
set mapreduce.input.fileinputformat.split.minsize=31457280;
set dfs.blocksize=31457280;

我们仍然看到映射器的数量保持不变。这是在普通集群上完成的，而不是在 S3 上。我们只看到 3 个 LZO 文件大小（229.16 MB、705.79 MB、157.61 MB）的映射器

hadoop - Lzo 文件没有在 Hive 作业中拆分

2 回答 2

Related

Reference