hadoop - tez/hive 中的 OOM

Question

[经过一些回答和评论后，我根据此处获得的知识提出了一个新问题：Hive/tez 中的内存不足与 LATERAL VIEW json_tuple ]

我的一个查询始终失败并出现错误：

ERROR : Status: Failed
ERROR : Vertex failed, vertexName=Map 1, vertexId=vertex_1516602562532_3606_2_03, diagnostics=[Task failed, taskId=task_1516602562532_3606_2_03_000001, diagnostics=[TaskAttempt 0 failed, info=[Container container_e113_1516602562532_3606_01_000008 finished with diagnostics set to [Container failed, exitCode=255. Exception from container-launch.
Container id: container_e113_1516602562532_3606_01_000008
Exit code: 255
Stack trace: ExitCodeException exitCode=255: 
    at org.apache.hadoop.util.Shell.runCommand(Shell.java:933)
    at org.apache.hadoop.util.Shell.run(Shell.java:844)
    at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:1123)
    at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer(DefaultContainerExecutor.java:237)
    at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:317)
    at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:83)
    at java.util.concurrent.FutureTask.run(FutureTask.java:266)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)

Container exited with a non-zero exit code 255
]], TaskAttempt 1 failed, info=[Error: Failure while running task:java.lang.RuntimeException: java.lang.OutOfMemoryError: Java heap space
    at org.apache.hadoop.hive.ql.exec.tez.TezProcessor.initializeAndRunProcessor(TezProcessor.java:173)

这里的关键字似乎是java.lang.OutOfMemoryError: Java heap space.

我环顾四周，但我认为我从 Tez 那里了解的所有内容都没有帮助我：

yarn-site/yarn.nodemanager.resource.memory-mb 已满 => 我用尽了所有内存
yarn-site/yarn.scheduler.maximum-allocation-mb：与 yarn.nodemanager.resource.memory-mb 相同
yarn-site/yarn.scheduler.minimum-allocation-mb = 1024
hive-site/hive.tez.container.size = 4096（yarn.scheduler.minimum-allocation-mb 的倍数）

我的查询有 4 个映射器，3 个非常快，第 4 个每次都死掉。这是查询的 Tez 图形视图：

从这张图片：

表contact有150M行，283GB的ORC压缩数据（有一个大的json字段，LATERAL VIEW'ed）
表m有1M行，20MB ORC压缩数据
表 c 有 2k 行，< 1MB ORC 压缩
表 e 有 800k 行，7GB 的 ORC 压缩
e 与所有其他表左联接

e 和contact 是分区的，WHERE 子句中只选择了一个分区。

因此，我试图增加地图的数量：

tez.grouping.max-size：默认为 650MB，即使我将其降低到 - tez.grouping.min-size（16MB）也没有区别
tez.grouping.split-count 甚至增加到 1000 也没有什么区别
tez.grouping.split-wave 默认为 1.7，即使增加到 5 也没有区别

如果它是相关的，这里有一些其他的内存设置：

mapred-site/mapreduce.map.memory.mb = 1024（最小容器大小）
mapred-site/mapreduce.reduce.memory.mb = 2048（2 * 最小容器大小）
mapred-site/mapreduce.map.java.opts = 819（0.8 * 最小容器大小）
mapred-site/mapreduce.reduce.java.opts = 1638 (0.8 * mapreduce.reduce.memory.mb)
mapred-site/yarn.app.mapreduce.am.resource.mb = 2048 (2 * min container size)
mapred-site/yarn.app.mapreduce.am.command-opts = 1638 (0.8 * yarn.app.mapreduce.am.resource.mb)
mapred-site/mapreduce.task.io.sort.mb = 409（0.4 * 最小容器大小）

我的理解是 tez 可以将工作分成许多负载，因此需要很长时间但最终会完成。是我错了，还是我没有找到方法？

上下文：hdp2.6，8 个具有 32GB 内存的数据节点，使用基于 json 的粗大横向视图通过直线运行进行查询。

score 1 · Accepted Answer

这个问题显然是由于偏斜的数据。我建议您将 DISTRIBUTE BY COL 添加到从源中选择查询，以便化简器具有均匀分布的数据。在下面的示例中，COL3 是更均匀分布的数据，例如 ID 列示例

ORIGINAL QUERY : insert overwrite table X AS SELECT COL1,COL2,COL3 from Y
NEW QUERY      : insert overwrite table X AS SELECT COL1,COL2,COL3 from Y distribute by COL3

score 0 · Accepted Answer

我有同样的问题，增加所有的内存参数没有帮助。

然后我切换到 MR 并得到以下错误。

Failed with exception Number of dynamic partitions created is 2795, which is more than 1000.

设置更高的值后，我返回 tez，问题就解决了。

hadoop - tez/hive 中的 OOM

2 回答 2

Related

Reference