hadoop - cloudera hadoop mapreduce作业GC开销限制超出错误

Question

我在 cloudera cdh4 上运行树冠集群作业（使用 mahout）。要聚类的内容大约有 1m 条记录（每条记录的大小小于 1k）。整个hadoop环境（包括所有节点）都在一个4G内存的vm中运行。默认情况下安装 cdh4。运行作业时出现以下异常。

根据异常，作业客户端看起来应该需要更高的 jvm 堆大小。但是，cloudera manager 中有很多 jvm 堆大小的配置选项。我将“客户端 Java 堆大小（以字节为单位）”从 256MiB 更改为 512MiB。然而，并没有好转。

有关设置这些堆大小选项的任何提示/提示？

13/07/03 17:12:45 INFO input.FileInputFormat: Total input paths to process : 1
13/07/03 17:12:46 INFO mapred.JobClient: Running job: job_201307031710_0001
13/07/03 17:12:47 INFO mapred.JobClient:  map 0% reduce 0%
13/07/03 17:13:06 INFO mapred.JobClient:  map 1% reduce 0%
13/07/03 17:13:27 INFO mapred.JobClient:  map 2% reduce 0%
13/07/03 17:14:01 INFO mapred.JobClient:  map 3% reduce 0%
13/07/03 17:14:50 INFO mapred.JobClient:  map 4% reduce 0%
13/07/03 17:15:50 INFO mapred.JobClient:  map 5% reduce 0%
13/07/03 17:17:06 INFO mapred.JobClient:  map 6% reduce 0%
13/07/03 17:18:44 INFO mapred.JobClient:  map 7% reduce 0%
13/07/03 17:20:24 INFO mapred.JobClient:  map 8% reduce 0%
13/07/03 17:22:20 INFO mapred.JobClient:  map 9% reduce 0%
13/07/03 17:25:00 INFO mapred.JobClient:  map 10% reduce 0%
13/07/03 17:28:08 INFO mapred.JobClient:  map 11% reduce 0%
13/07/03 17:31:46 INFO mapred.JobClient:  map 12% reduce 0%
13/07/03 17:35:57 INFO mapred.JobClient:  map 13% reduce 0%
13/07/03 17:40:52 INFO mapred.JobClient:  map 14% reduce 0%
13/07/03 17:46:55 INFO mapred.JobClient:  map 15% reduce 0%
13/07/03 17:55:02 INFO mapred.JobClient:  map 16% reduce 0%
13/07/03 18:08:42 INFO mapred.JobClient:  map 17% reduce 0%
13/07/03 18:59:11 INFO mapred.JobClient:  map 8% reduce 0%
13/07/03 18:59:13 INFO mapred.JobClient: Task Id : attempt_201307031710_0001_m_000001_0, Status : FAILED
Error: GC overhead limit exceeded
13/07/03 18:59:23 INFO mapred.JobClient:  map 9% reduce 0%
13/07/03 19:00:09 INFO mapred.JobClient:  map 10% reduce 0%
13/07/03 19:01:49 INFO mapred.JobClient:  map 11% reduce 0%
13/07/03 19:04:25 INFO mapred.JobClient:  map 12% reduce 0%
13/07/03 19:07:48 INFO mapred.JobClient:  map 13% reduce 0%
13/07/03 19:12:48 INFO mapred.JobClient:  map 14% reduce 0%
13/07/03 19:19:46 INFO mapred.JobClient:  map 15% reduce 0%
13/07/03 19:29:05 INFO mapred.JobClient:  map 16% reduce 0%
13/07/03 19:43:43 INFO mapred.JobClient:  map 17% reduce 0%
13/07/03 20:49:36 INFO mapred.JobClient:  map 8% reduce 0%
13/07/03 20:49:38 INFO mapred.JobClient: Task Id : attempt_201307031710_0001_m_000001_1, Status : FAILED
Error: GC overhead limit exceeded
13/07/03 20:49:48 INFO mapred.JobClient:  map 9% reduce 0%
13/07/03 20:50:31 INFO mapred.JobClient:  map 10% reduce 0%
13/07/03 20:52:08 INFO mapred.JobClient:  map 11% reduce 0%
13/07/03 20:54:38 INFO mapred.JobClient:  map 12% reduce 0%
13/07/03 20:58:01 INFO mapred.JobClient:  map 13% reduce 0%
13/07/03 21:03:01 INFO mapred.JobClient:  map 14% reduce 0%
13/07/03 21:10:10 INFO mapred.JobClient:  map 15% reduce 0%
13/07/03 21:19:54 INFO mapred.JobClient:  map 16% reduce 0%
13/07/03 21:31:35 INFO mapred.JobClient:  map 8% reduce 0%
13/07/03 21:31:37 INFO mapred.JobClient: Task Id : attempt_201307031710_0001_m_000000_0, Status : FAILED
java.lang.Throwable: Child Error
    at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:250)
Caused by: java.io.IOException: Task process exit with nonzero status of 65.
    at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:237)

13/07/03 21:32:09 INFO mapred.JobClient:  map 9% reduce 0%
13/07/03 21:33:31 INFO mapred.JobClient:  map 10% reduce 0%
13/07/03 21:35:42 INFO mapred.JobClient:  map 11% reduce 0%
13/07/03 21:38:41 INFO mapred.JobClient:  map 12% reduce 0%
13/07/03 21:42:27 INFO mapred.JobClient:  map 13% reduce 0%
13/07/03 21:48:20 INFO mapred.JobClient:  map 14% reduce 0%
13/07/03 21:56:12 INFO mapred.JobClient:  map 15% reduce 0%
13/07/03 22:07:20 INFO mapred.JobClient:  map 16% reduce 0%
13/07/03 22:26:36 INFO mapred.JobClient:  map 17% reduce 0%
13/07/03 23:35:30 INFO mapred.JobClient:  map 8% reduce 0%
13/07/03 23:35:32 INFO mapred.JobClient: Task Id : attempt_201307031710_0001_m_000000_1, Status : FAILED
Error: GC overhead limit exceeded
13/07/03 23:35:42 INFO mapred.JobClient:  map 9% reduce 0%
13/07/03 23:36:16 INFO mapred.JobClient:  map 10% reduce 0%
13/07/03 23:38:01 INFO mapred.JobClient:  map 11% reduce 0%
13/07/03 23:40:47 INFO mapred.JobClient:  map 12% reduce 0%
13/07/03 23:44:44 INFO mapred.JobClient:  map 13% reduce 0%
13/07/03 23:50:42 INFO mapred.JobClient:  map 14% reduce 0%
13/07/03 23:58:58 INFO mapred.JobClient:  map 15% reduce 0%
13/07/04 00:10:22 INFO mapred.JobClient:  map 16% reduce 0%
13/07/04 00:21:38 INFO mapred.JobClient:  map 7% reduce 0%
13/07/04 00:21:40 INFO mapred.JobClient: Task Id : attempt_201307031710_0001_m_000001_2, Status : FAILED
java.lang.Throwable: Child Error
    at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:250)
Caused by: java.io.IOException: Task process exit with nonzero status of 65.
    at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:237)

13/07/04 00:21:50 INFO mapred.JobClient:  map 8% reduce 0%
13/07/04 00:22:27 INFO mapred.JobClient:  map 9% reduce 0%
13/07/04 00:23:52 INFO mapred.JobClient:  map 10% reduce 0%
13/07/04 00:26:00 INFO mapred.JobClient:  map 11% reduce 0%
13/07/04 00:28:47 INFO mapred.JobClient:  map 12% reduce 0%
13/07/04 00:32:17 INFO mapred.JobClient:  map 13% reduce 0%
13/07/04 00:37:34 INFO mapred.JobClient:  map 14% reduce 0%
13/07/04 00:44:30 INFO mapred.JobClient:  map 15% reduce 0%
13/07/04 00:54:28 INFO mapred.JobClient:  map 16% reduce 0%
13/07/04 01:16:30 INFO mapred.JobClient:  map 17% reduce 0%
13/07/04 01:32:05 INFO mapred.JobClient:  map 8% reduce 0%
13/07/04 01:32:08 INFO mapred.JobClient: Task Id : attempt_201307031710_0001_m_000000_2, Status : FAILED
Error: GC overhead limit exceeded
13/07/04 01:32:21 INFO mapred.JobClient:  map 9% reduce 0%
13/07/04 01:33:26 INFO mapred.JobClient:  map 10% reduce 0%
13/07/04 01:35:37 INFO mapred.JobClient:  map 11% reduce 0%
13/07/04 01:38:48 INFO mapred.JobClient:  map 12% reduce 0%
13/07/04 01:43:06 INFO mapred.JobClient:  map 13% reduce 0%
13/07/04 01:49:58 INFO mapred.JobClient:  map 14% reduce 0%
13/07/04 01:59:07 INFO mapred.JobClient:  map 15% reduce 0%
13/07/04 02:12:00 INFO mapred.JobClient:  map 16% reduce 0%
13/07/04 02:37:56 INFO mapred.JobClient:  map 17% reduce 0%
13/07/04 03:31:55 INFO mapred.JobClient:  map 8% reduce 0%
13/07/04 03:32:00 INFO mapred.JobClient: Job complete: job_201307031710_0001
13/07/04 03:32:00 INFO mapred.JobClient: Counters: 7
13/07/04 03:32:00 INFO mapred.JobClient:   Job Counters 
13/07/04 03:32:00 INFO mapred.JobClient:     Failed map tasks=1
13/07/04 03:32:00 INFO mapred.JobClient:     Launched map tasks=8
13/07/04 03:32:00 INFO mapred.JobClient:     Data-local map tasks=8
13/07/04 03:32:00 INFO mapred.JobClient:     Total time spent by all maps in occupied slots (ms)=11443502
13/07/04 03:32:00 INFO mapred.JobClient:     Total time spent by all reduces in occupied slots (ms)=0
13/07/04 03:32:00 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0
13/07/04 03:32:00 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0
Exception in thread "main" java.lang.RuntimeException: java.lang.InterruptedException: Canopy Job failed processing vector

score 3 · Accepted Answer

Mahout 作业非常占用内存。我不知道是映射器还是减速器是罪魁祸首，但是，无论哪种方式，您都必须告诉 Hadoop 给它们更多 RAM。“GC Overhead Limit Exceeded”只是“内存不足”的一种说法——意味着 JVM 放弃了尝试回收最后 0.01% 的可用 RAM。

你如何设置这确实有点复杂，因为有几个属性，它们在 Hadoop 2 中发生了变化。CDH4 可以支持 Hadoop 1 或 2——你使用的是哪一个？

如果我不得不猜测：设置mapreduce.child.java.opts为-Xmx1g. 但正确的答案实际上取决于您的版本和数据。

score 0 · Accepted Answer

您需要更改 Hadoop 的内存设置，因为为 Hadoop 分配的内存不足以满足您正在运行的作业要求，请尝试增加堆内存并验证，由于内存过度使用，操作系统可能会杀死进程哪个工作失败了。

hadoop - cloudera hadoop mapreduce作业GC开销限制超出错误

2 回答 2

Related

Reference