hive - 如何减少查询中的容器数量

Question

我有一个使用太多容器和太多内存的查询。（使用了 97% 的内存）。有没有办法设置查询中使用的容器数量并限制最大内存？该查询正在 Tez 上运行。

提前致谢

score 2 · Accepted Answer

控制 Mapper 的数量：

映射器的数量取决于各种因素，例如数据在节点之间的分布方式、输入格式、执行引擎和配置参数。另请参阅初始任务并行性如何工作

MR 使用 CombineInputFormat，而 Tez 使用分组拆分。

特兹：

set tez.grouping.min-size=16777216; -- 16 MB min split
set tez.grouping.max-size=1073741824; -- 1 GB max split

增加这些数字以减少运行的映射器数量。

此外，映射器在数据所在的数据节点上运行，这就是为什么手动控制映射器的数量不是一件容易的事，并不总是可以组合输入。

控制 Reducer 的数量：

减速机数量根据确定

mapreduce.job.reduces

每个作业的默认减少任务数。通常设置为接近可用主机数量的素数。mapred.job.tracker当是“本地”时忽略。Hadoop 默认将此设置为 1，而 Hive 使用 -1 作为其默认值。通过将此属性设置为 -1，Hive 将自动计算出减速器的数量。

hive.exec.reducers.bytes.per.reducer- Hive 0.14.0 及更早版本中的默认值为 1 GB。

此外hive.exec.reducers.max- 将使用的最大减速器数量。如果mapreduce.job.reduces为负数，Hive 将在自动确定减速器数量时将此作为最大减速器数量。

只需设置hive.exec.reducers.max=<number>以限制运行的减速器数量。

如果要增加 reducer 并行度，请增加 hive.exec.reducers.max 并减少 hive.exec.reducers.bytes.per.reducer。

内存设置

set tez.am.resource.memory.mb=8192;
set tez.am.java.opts=-Xmx6144m;
set tez.reduce.memory.mb=6144;
set hive.tez.container.size=9216;
set hive.tez.java.opts=-Xmx6144m;

默认设置意味着实际Tez任务将使用映射器的内存设置：

hive.tez.container.size = mapreduce.map.memory.mb
hive.tez.java.opts = mapreduce.map.java.opts

阅读本文了解更多详情：揭秘 Apache Tez 内存调优 - 一步一步

我建议先优化查询。如果可能，请使用 map-joins，使用矢量化执行，distribute by partitin key如果您正在编写分区表，则添加以减少 reducer 上的内存消耗，当然还要编写好的 sql。

hive - 如何减少查询中的容器数量

1 回答 1

Related

Reference