apache-spark - Hadoop客户端无法连接到datanode

Question

我在 ec2 上有单节点 hadoop 集群。试图在 slaves 文件中给出所有可能的组合。

May 01 2020 08:16:25.227 DEBUG org.apache.hadoop.hdfs.DFSClient - pipeline = 172.31.45.114:9866 
May 01 2020 08:16:25.227 DEBUG org.apache.hadoop.hdfs.DFSClient - pipeline = 172.31.45.114:9866 
May 01 2020 08:16:25.228 DEBUG org.apache.hadoop.hdfs.DFSClient - Connecting to datanode 172.31.45.114:9866 
May 01 2020 08:16:25.228 DEBUG org.apache.hadoop.hdfs.DFSClient - Connecting to datanode 172.31.45.114:9866 
May 01 2020 08:16:35.167 DEBUG org.apache.hadoop.ipc.Client - IPC Client (2007716372) connection to ec-x.x.x.x/x.x.x.x:54310 from vgs: closed

我试图将 datanode 绑定到外部 ip ，但它没有绑定，默认情况下它绑定在机器的内部 ip 上。

也用作dfs.client.use.datanode.hostnametrue，客户端仍然接收内部 ip 而不是外部。

score 0 · Accepted Answer

为了在 EMR 上运行 spark，您至少需要 2 个节点（我设法在至少 3 个节点上运行它，但从我正在阅读的内容来看 - 我认为 2 个也应该足够了） - 1 个节点 - MASTER 是不够的。你需要 MASTER 和 CORE。在这里，您有一些更全面的指南： https ://medium.com/big-data-on-amazon-elastic-mapreduce/run-a-spark-job-within-amazon-emr-in-15-分钟-68b02af1ae16

apache-spark - Hadoop客户端无法连接到datanode

1 回答 1

Related

Reference