1

我正在尝试启动一个dask集群,但它显示以下错误:

Timed out trying to connect to 'tcp://100.100.160.25:2323' after 10 s:
Timed out trying to connect to 'tcp://100.100.160.25:2323' after 10 s: 
connect() didn't finish in time
4

1 回答 1

0

我在通过 dask-cloudprovider 构建临时 ECS/Fargate 集群时遇到了类似的情况。答案最终落入了网络架构的桶中。以下是一些建议:

  1. 确保您对已设置的任何 IAM 角色都有网络防火墙规则。这是 AWS 中的“安全组”,但对其他平台并不积极。
  2. 确保您的网络路由表已为您的 Internet 网关正确设置,并允许您的节点进出……如果未在私有子网中正确设置,这尤其不安全。如果您尝试在私有子网中运行,那么一定要尝试确定 NAT 网关是否设置正确,以及您可能拥有的任何负载均衡器。
  3. 我看到您的系统正在查找端口 2323... 据我所知,dask 通常默认查找 8787,如果您不确定,我会调查一下。

这个问题很难确定,所以我建议进行大量的跟踪和错误。检查每个工作人员和调度程序的日志,并尝试获取其他可能导致问题的提示。

于 2021-02-07T18:24:13.587 回答