我正在使用 Dockerflow 通过 Google Cloud Platform 上的 Google Pipelines API 运行并行任务。我开始了一个并行运行 1389 个 VM 的单步任务,发现其中 233 个 VM 显然什么都不做,并且无限期地挂起。
我对串行控制台输出进行了抽查,并反复看到虚拟机运行到“获取控制器配置失败”错误。
当我尝试登录虚拟机时,我收到错误消息:“连接失败。我们无法连接到端口 22 上的虚拟机”。
我想知道为什么我的 VM 实例会挂起,以及是否可以采取一些措施来避免遇到这些问题。
我在下面包含了串行控制台输出的片段
startupscript: +++ readlink -f /usr/share/google-genomics/startup.sh
startupscript: ++ dirname /usr/share/google-genomics/startup.sh
startupscript: + cd /usr/share/google-genomics
startupscript: + ./controller --operation_id <id> --validation_token <token> --base_path https://genomics.googleapis.com
create controller[2905]: Getting controller config
create controller[2905]: Getting controller config failed, will retry: Get <link>: Get <service_account_token_link>: net/http: timeout awaiting response headers
create controller[2905]: Getting controller config failed, will retry: Get <link>: dial tcp 74.125.26.95:443: i/o timeout
collectd[2342]: write_gcm: Asking metadata server for auth token
collectd[2342]: write_gcm: curl_easy_perform() failed: Couldn't connect to server
collectd[2342]: write_gcm: Error -1 from wg_curl_get_or_post
collectd[2342]: write_gcm: wg_transmit_unique_segment failed.
collectd[2342]: write_gcm: wg_transmit_unique_segments failed. Flushing.