hadoop - 从 ORC 读取时增加映射器的数量

Question

这就是问题所在。

我正在尝试从 Hive 中的压缩 ORC 表中读取数据，但 YARN 无法确定正确的映射器数量，因为它使用压缩数据大小的值进行计算而不是原始值。这是一个问题，因为对于大约 100 GB 的数据集，我们只有 18 个映射器。

使用 hive.exec.reducers.bytes.per.reducer 有助于增加 reducer 的数量。有没有办法获得更多的映射器？

提前致谢！

score 0 · Accepted Answer

如果您使用以下配置设置

set mapreduce.input.fileinputformat.split.maxsize=100000;
set mapreduce.input.fileinputformat.split.minsize=100000;

如果你减少最大值，你应该得到更多的映射器。我认为无论如何都应该有效！

1 回答 1