hadoop - 我的 hadoop 工作 252 小时后死了（然后任务被杀）

Question

我完成了 81,068 个任务，但随后有 11,799 个任务失败，只有 12 个被杀死。他们似乎都失败了

2013-09-10 03:07:36,316 INFO org.apache.hadoop.mapred.TaskInProgress: Error from  attempt_201308301539_0002_m_083001_0: Error initializing attempt_201308301539_0002_m_083001_0:
org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find taskTracker/jobcache/job_201308301539_0002/work in any of the configured local directories
    at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathToRead(LocalDirAllocator.java:389)
    at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathToRead(LocalDirAllocator.java:138)
    at org.apache.hadoop.mapred.TaskTracker$TaskInProgress.localizeTask(TaskTracker.java:1817)
    at org.apache.hadoop.mapred.TaskTracker$TaskInProgress.launchTask(TaskTracker.java:1933)
    at org.apache.hadoop.mapred.TaskTracker.launchTaskForJob(TaskTracker.java:830)
    at org.apache.hadoop.mapred.TaskTracker.localizeJob(TaskTracker.java:824)
    at org.apache.hadoop.mapred.TaskTracker.startNewTask(TaskTracker.java:1664)
    at org.apache.hadoop.mapred.TaskTracker.access$1200(TaskTracker.java:97)
    at org.apache.hadoop.mapred.TaskTracker$TaskLauncher.run(TaskTracker.java:1629)

在这一点上，我只是在寻找有关如何在再次运行它之前调试它的指导。出于某种原因在集群中，看起来所有文件都被删除了，虽然我认为 hadoop M/R 只删除了成功的任务日志？？？？

有人对如何进一步调试有一些建议/想法吗？

看起来 map/reduce 的所有默认目录都被使用了... /tmp/hadoop-hduser 用于我的 hduser。

我在 /etc/hosts 上看到过东西，但是我不明白为什么 81,000 个任务在最终失败之前成功了？？？

当然，我正在使用 Web 界面来获取其中的一些信息以及 hadoopinstalled/logs 的一些日志

谢谢，院长

hadoop - 我的 hadoop 工作 252 小时后死了（然后任务被杀）

0 回答 0

Related

Reference