我想知道在使用 bdutil 工具部署 Spark 集群时是否有人可以帮助我解决这个问题。当核心总数增加(> = 1024)时,它一直失败,原因如下:
某些机器永远无法 sshable,例如“Tue Dec 8 13:45:14 PST 2015: 'hadoop-w-5' not yet sshable (255); sleep"
一些节点在部署 Spark 工作节点时失败并出现“Exited 100”错误,例如“Tue Dec 8 15:28:31 PST 2015: Exited 100: gcloud --project=cs-bwamem --quiet --verbosity=info compute ssh hadoop-w-6 --command=sudo su -l -c "cd ${PWD} && ./deploy-core-setup.sh" 2>>deploy-core-setup_deploy.stderr 1>>deploy-core-setup_deploy .stdout --ssh-flag=-tt --ssh-flag=-oServerAliveInterval=60 --ssh-flag=-oServerAliveCountMax=3 --ssh-flag=-oConnectTimeout=30 --zone=us-central1-f"
在日志文件中,它说:
hadoop-w-40: ==> 部署核心-setup_deploy.stderr <==
hadoop-w-40:dpkg-query:未安装包“openjdk-7-jdk”,没有可用信息
hadoop-w-40:使用 dpkg --info (= dpkg-deb --info) 检查存档文件,
hadoop-w-40: 和 dpkg --contents (= dpkg-deb --contents) 列出它们的内容。
hadoop-w-40:无法获取http://httpredir.debian.org/debian/pool/main/x/xml-core/xml-core_0.13+nmu2_all.deb 从服务器读取错误。远端关闭连接[IP:128.31.0.66 80]
hadoop-w-40:E:无法获取一些档案,也许运行 apt-get update 或尝试使用--fix-missing?
我试过16核128节点、32核64节点、32核32节点和其他1024核以上的配置,但是上面的原因1或2都会出现。
我还尝试修改 ssh-flag 以将 ConnectTimeout 更改为 1200 秒,并更改 bdutil_env.sh 以将轮询间隔设置为 30 秒、60 秒……,它们都不起作用。总会有一些节点失败。
这是我使用的配置之一:
时间 ./bdutil \ --bucket $BUCKET \ --force \ --machine_type n1-highmem-32 \ --master_machine_type n1-highmem-32 \ --num_workers 64 \ --project $PROJECT \ --upload_files ${JAR_FILE } \ --env_var_files hadoop2_env.sh,extensions/spark/spark_env.sh \ deploy