2

根据本指南,我已经在几台 Win7(32/64 位)计算机上安装了 condor 8.2.0:http ://www.slideshare.net/gtelzur/condor8-win-install所有服务都在同一台机器上运行,因此我排除物理网络中断。

每当创建/提交作业时,它都处于空闲模式。详细查看日志文件会发现以下问题(ShadowLog):

07/07/14 08:10:47 (1.1) (PID1): **** condor_shadow (condor_SHADOW) pid PID1 EXITING WITH STATUS 107
07/07/14 08:10:47 (1.0) (PID2): condor_read() failed: recv(fd=540) returned -1, errno = 10054 , reading 5 bytes from startd slot1@mycomputer.mydomain.local.
07/07/14 08:10:47 (1.0) (PID2): IO: Failed to read packet header
07/07/14 08:10:47 (1.0) (PID2): Can no longer talk to condor_starter <192.168.25.120:56186>

我找不到有关 ID 为 10054 的 IO 异常的更多详细信息。除此之外,如果我搜索“Condor IO: Failed to read packet header”,Google 不会给我有用的提示。

你知道什么可以解决这个问题吗?

4

2 回答 2

1

我有同样的问题,当我重新安装 Condor 时它已修复C:\Condor(它在D:\Condor)。

请注意,在使用 Condor 8.2.1 时,我遇到了一个不相关的问题:我必须编辑condor_config文件并删除行中的一个 $ CONDOR_HOST = $$(FULL_HOSTNAME),否则会出现解析错误。

于 2014-07-30T04:34:40.530 回答
1

当你看到

condor_read() failed: .... reading 5 bytes from .....

在其中一个日志文件中,这通常意味着连接的另一端挂断,因此您应该在日志文件中查找转换的另一端。在这种情况下,这将是mycomputer.mydomain.local上的StarterLog.slot1 (或者可能只是StarterLog,如果问题发生得非常早)。

通常当一个守护进程挂断时,挂断的原因在日志中,而问题往往是对话的另一方没有被授权。查看与 ALLOW_* 匹配的配置值以查看授权内容。

于 2014-08-04T20:30:01.337 回答