1

大多数时候,我们的扭矩工作运行良好。我们时不时地收到电子邮件说:

PBS Job Id: 1234.master.example.com
Job Name:   myjob
Exec host:  worker1.example.com/38
An error has occurred processing your job, see below.
request to copy stageout files failed on node
'worker1.example.com/38' for job
1234.master.example.com

Unable to copy file
/var/spool/torque/spool/1234.master.example.com.OU to
/home/someuser/myjob.log,
error 1
*** error from copy
/bin/cp: cannot stat
`/var/spool/torque/spool/1234.master.example.com.OU': No
such file or directory
*** end error output

现在,我们已经usecp正确设置,/home安装在每台机器上。大多数时候一切正常,日志文件被复制到目的地,并且没有错误电子邮件。我们只是间歇性地收到错误电子邮件。现在奇怪的是,即使我们收到这些错误电子邮件,日志文件实际上也存在于我们期望它们的目的地(例如:)/home/someuser/myjob.log。看起来日志文件已成功复制,但电子邮件除外。

我认为可能发生的事情是这样的:

  1. 作业成功完成,并将日志文件从 /var/spool 成功复制到共享 NFS 目录上的目标位置。
  2. /var/spool 下执行主机上的日志文件被删除。
  3. 妈妈被指示再次运行作业退出程序(妈妈和服务器之间的通信可能出现故障,并且服务器认为作业尚未退出)。
  4. 妈妈再次尝试将日志文件从 /var/spool 复制到 NFS 上的目标位置,但失败了,因为它们在成功复制后已在步骤 2 中删除。

但是很难调试,因为它只是间歇性地发生。

4

0 回答 0