ubuntu - hadoop 示例作业因网络错误而失败

Question

我正在运行一个包含三个节点的测试集群（一个真实系统，两个虚拟机）。所有三个 ubuntu 10.1 或更高版本。Hadoop 版本 1.0.2 和配置单元 0.8.1

现在，基本工作正常，节点能够相互通信，数据包正在被复制等等。进程运行良好。

作为测试用例，我尝试运行标准的 hadoop 字数统计示例。那个 map/reduce 工作失败了——

Call to <my_NameNode_HostName>127.0.0.1:9000 failed on connection exception:
 java.net.ConnectException: Connection refused

尽管工作继续进行，但有时它只是挂起，有时它会在失败之前重复此消息（当然还有堆栈跟踪）几次。令人惊讶的是，无论是在屏幕上还是在输出目录中，都不会产生任何输出。

这是我运行的命令 -

hadoop jar hadoop*examples*.jar wordcount /text_data /txt_output

hadoop在path中，jar文件在当前目录下，3个文本文件已经复制到hdfs目录/text_data

谷歌搜索似乎也没有找到有用的东西......在这里寻求帮助......

编辑：我忘了添加其他作业（例如由配置单元查询触发）运行得很好。SSH 是跨三个节点设置的，并且所有边缘都经过了连接性测试，没有密码挑战。

score 0 · Accepted Answer

似乎问题出在NameNode上。你的名字节点起来了吗？

我将尝试在下面确定问题：

1) 在主节点尝试 jps 以查看名称节点守护进程是否正在运行 2) 验证名称节点 hadoop/logs/ 的日志 3) 验证 /etc/hosts/ 配置和 masters 文件配置

1 回答 1