我有一个 Map/Reduce 作业分布在集群上的四个节点上。我只是确保地图功能目前可以工作,所以我只用一个映射器来运行这项工作。它从 0% 到 3% 到 20% 等一直到地图 97%,在不到一分钟的时间内减少 0%,然后卡住。
大约 10 分钟后,程序失败,因为失败的地图任务数超出了允许的限制。通常我会在 web ui 上四处寻找信息,但这是在没有 GUI 功能的 VM 上完成的。我的下一步应该是什么?
编辑
而不是调试,它在地图运行的最后(即 97%)失败的事实是否表明了一些特别的事情,例如损坏的文件、写入 HDFS 的问题?