我有一个由 4 台专用机器组成的 condor 池,其中一台设置为中央管理器、提交和执行节点,而另外三台设置为执行节点我使用 CentOS 5.4 作为所有机器的操作系统。我的问题是,当我从中央管理器提交作业时,它仅在中央管理器上运行,因此当我在 JDL 文件中指定作业应在除中央管理器之外的任何机器上运行时,作业将保持暂停状态并且不会运行。当我输入 condor_status 时,所有节点都会出现。我将守护进程 MASTER、STARTD 保留在执行节点的守护进程列表中。有没有人遇到过这个问题?
问问题
161 次
1 回答
0
没有足够的信息来回答您的问题,但首先要做的是运行condor_q -analyze <jobid>
并查看它告诉您的内容。请参阅 Condor 手册第 2.6.5 节:为什么作业没有运行?
一个可能的原因是您没有告诉 Condor 为您传输输入/输出文件,并且您的节点具有不同的“文件系统域”,因此 Condor 无法找到与您的提交主机共享公共文件系统的主机。
于 2012-03-30T02:31:04.620 回答