Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
这就是问题所在。
我正在尝试从 Hive 中的压缩 ORC 表中读取数据,但 YARN 无法确定正确的映射器数量,因为它使用压缩数据大小的值进行计算而不是原始值。这是一个问题,因为对于大约 100 GB 的数据集,我们只有 18 个映射器。
使用 hive.exec.reducers.bytes.per.reducer 有助于增加 reducer 的数量。有没有办法获得更多的映射器?
提前致谢!
如果您使用以下配置设置
set mapreduce.input.fileinputformat.split.maxsize=100000; set mapreduce.input.fileinputformat.split.minsize=100000;
如果你减少最大值,你应该得到更多的映射器。我认为无论如何都应该有效!