我很难让 ipcluster 启动我要求的所有 ipengine。这似乎是某种超时问题。我在具有 192 个处理器的 linux 集群上使用 IPython 2.0。我运行一个本地 ipcontroller,并使用 SSH 在我的 12 个节点上启动 ipengines。这不是配置问题(至少我认为不是),因为我运行大约 110 个 ipengine 没有问题。当我尝试更大的数量时,它们中的一些似乎在启动过程中死掉了,我的意思是其中一些——我的最终数字略有不同。ipcluster 报告所有引擎都已启动。我能找到的唯一问题迹象(除了没有使用所有请求的引擎)是一些 ipengine 日志中的以下内容:
2014-06-20 16:42:13.302 [IPEngineApp] Loading url_file u'.ipython/profile_ssh/security/ipcontroller-engine.json'
2014-06-20 16:42:13.335 [IPEngineApp] Registering with controller at tcp://10.1.0.253:55576
2014-06-20 16:42:13.429 [IPEngineApp] Starting to monitor the heartbeat signal from the hub every 3010 ms.
2014-06-20 16:42:13.434 [IPEngineApp] Using existing profile dir: u'.ipython/profile_ssh'
2014-06-20 16:42:13.436 [IPEngineApp] Completed registration with id 49
2014-06-20 16:42:25.472 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 18:09:12.782 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 19:14:22.760 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 20:00:34.969 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
我做了一些谷歌搜索,看看我是否能找到一些智慧,我遇到的唯一一件事是http://permalink.gmane.org/gmane.comp.python.ipython.devel/12228。作者似乎认为这是某种超时。
我还尝试将 IPClusterStart.early_shutdown 和 IPClusterEngines.early_shutdown 时间增加三倍(90 秒,而不是默认的 30 秒),但没有任何运气。
感谢 - 提前 - 关于充分利用我的集群的任何指示。