我们在 s3 中有 3 个 .lzo 文件和相应的 .index 文件。我们正在这些文件的目录上创建一个外部表。每个 lzo 文件的大小为 100MB+,每个文件的未压缩大小为 800+MB 块大小为 128MB。当我们运行 hive 查询时,不幸的是只生成了 3 个映射器,这表明没有发生拆分,这可能是什么问题?
问问题
282 次
2 回答
1
仅当压缩文件的大小大于拆分大小时,可拆分才适用。Hive 默认拆分大小为 256 MB。
在 hive 会话中修改拆分大小并运行查询。
set mapreduce.input.fileinputformat.split.minsize=64000000
于 2015-12-03T07:56:44.647 回答
0
一切都设置为 30MB。
set mapreduce.input.fileinputformat.split.maxsize=31457280;
set mapreduce.input.fileinputformat.split.minsize=31457280;
set dfs.blocksize=31457280;
我们仍然看到映射器的数量保持不变。这是在普通集群上完成的,而不是在 S3 上。我们只看到 3 个 LZO 文件大小(229.16 MB、705.79 MB、157.61 MB)的映射器
于 2015-12-03T11:17:31.953 回答