0

我在 ec2 上有单节点 hadoop 集群。试图在 slaves 文件中给出所有可能的组合。

May 01 2020 08:16:25.227 DEBUG org.apache.hadoop.hdfs.DFSClient - pipeline = 172.31.45.114:9866 
May 01 2020 08:16:25.227 DEBUG org.apache.hadoop.hdfs.DFSClient - pipeline = 172.31.45.114:9866 
May 01 2020 08:16:25.228 DEBUG org.apache.hadoop.hdfs.DFSClient - Connecting to datanode 172.31.45.114:9866 
May 01 2020 08:16:25.228 DEBUG org.apache.hadoop.hdfs.DFSClient - Connecting to datanode 172.31.45.114:9866 
May 01 2020 08:16:35.167 DEBUG org.apache.hadoop.ipc.Client - IPC Client (2007716372) connection to ec-x.x.x.x/x.x.x.x:54310 from vgs: closed 

我试图将 datanode 绑定到外部 ip ,但它没有绑定,默认情况下它绑定在机器的内部 ip 上。

也用作dfs.client.use.datanode.hostnametrue,客户端仍然接收内部 ip 而不是外部。

4

1 回答 1

0

为了在 EMR 上运行 spark,您至少需要 2 个节点(我设法在至少 3 个节点上运行它,但从我正在阅读的内容来看 - 我认为 2 个也应该足够了) - 1 个节点 - MASTER 是不够的。你需要 MASTER 和 CORE。在这里,您有一些更全面的指南: https ://medium.com/big-data-on-amazon-elastic-mapreduce/run-a-spark-job-within-amazon-emr-in-15-分钟-68b02af1ae16

于 2020-05-02T05:54:40.163 回答