ipython-parallel - ipcluster - 不能启动超过 110 个 ipengines - 或者其中一些可能会死掉

Question

我很难让 ipcluster 启动我要求的所有 ipengine。这似乎是某种超时问题。我在具有 192 个处理器的 linux 集群上使用 IPython 2.0。我运行一个本地 ipcontroller，并使用 SSH 在我的 12 个节点上启动 ipengines。这不是配置问题（至少我认为不是），因为我运行大约 110 个 ipengine 没有问题。当我尝试更大的数量时，它们中的一些似乎在启动过程中死掉了，我的意思是其中一些——我的最终数字略有不同。ipcluster 报告所有引擎都已启动。我能找到的唯一问题迹象（除了没有使用所有请求的引擎）是一些 ipengine 日志中的以下内容：

2014-06-20 16:42:13.302 [IPEngineApp] Loading url_file u'.ipython/profile_ssh/security/ipcontroller-engine.json'
2014-06-20 16:42:13.335 [IPEngineApp] Registering with controller at tcp://10.1.0.253:55576
2014-06-20 16:42:13.429 [IPEngineApp] Starting to monitor the heartbeat signal from the hub every 3010 ms.
2014-06-20 16:42:13.434 [IPEngineApp] Using existing profile dir: u'.ipython/profile_ssh'
2014-06-20 16:42:13.436 [IPEngineApp] Completed registration with id 49
2014-06-20 16:42:25.472 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 18:09:12.782 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 19:14:22.760 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 20:00:34.969 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).

我做了一些谷歌搜索，看看我是否能找到一些智慧，我遇到的唯一一件事是http://permalink.gmane.org/gmane.comp.python.ipython.devel/12228。作者似乎认为这是某种超时。

我还尝试将 IPClusterStart.early_shutdown 和 IPClusterEngines.early_shutdown 时间增加三倍（90 秒，而不是默认的 30 秒），但没有任何运气。

感谢 - 提前 - 关于充分利用我的集群的任何指示。

score 1 · Accepted Answer

当我尝试执行 ipcluster start --n=200 我得到： OSError: [Errno 24] Too many open files
这也可能发生在你身上。尝试提高操作系统的打开文件限制。

ipython-parallel - ipcluster - 不能启动超过 110 个 ipengines - 或者其中一些可能会死掉

1 回答 1

Related

Reference