1

condor_status 显示总共有 470 个可用,298 个无人认领,但一次只有 172 个工作在运行。无论我尝试提交多少次作业,我仍然只能得到 172。如果我更改“套接字”,我会得到更多或更少,但永远不会接近可用的 470。

我的要求很简单,每台机器都应满足以下标准:

requirements = (((Target.OpSys=="WINDOWS") || (Target.OpSys=="WINNT61")) && (Target.Arch=="X86_64"))

我检查了日志文件,我的所有运行似乎都有足够的磁盘空间和内存,我看不到任何东西似乎限制了工作。对我来说唯一可疑的是,对于不运行的作业,分配的磁盘和内存比使用的要多得多,而且似乎从未使用过 cpu。

(1) Normal termination (return value -1073741515)
    Usr 0 00:00:01, Sys 0 00:00:00  -  Run Remote Usage
    Usr 0 00:00:00, Sys 0 00:00:00  -  Run Local Usage
    Usr 0 00:00:01, Sys 0 00:00:00  -  Total Remote Usage
    Usr 0 00:00:00, Sys 0 00:00:00  -  Total Local Usage
1047  -  Run Bytes Sent By Job
92422376  -  Run Bytes Received By Job
1047  -  Total Bytes Sent By Job
92422376  -  Total Bytes Received By Job
Partitionable Resources :    Usage  Request Allocated
   Cpus                 :                 1         1
   Disk (KB)            :   428810   400000 117456696
   Memory (MB)          :       19      400      2042

对于 DO RUN 的作业,它们通常使用 < 400 MB 的内存和 <400,000 KB 的磁盘空间。我尝试在提交文件中设置这些要求,但它似乎没有改变任何东西。

368  -  MemoryUsage of job (MB)
376144  -  ResidentSetSize of job (KB)

关于可能限制我可以运行的进程数量的任何线索?

4

1 回答 1

2

从秃鹰的角度来看,如果你在工作日志中看到这样的条目

(1) Normal termination (return value -1073741515) 
    Usr 0 00:00:01, Sys 0 00:00:00  -  Run Remote Usage
    Usr 0 00:00:00, Sys 0 00:00:00  -  Run Local Usage
    Usr 0 00:00:01, Sys 0 00:00:00  -  Total Remote Usage
    Usr 0 00:00:00, Sys 0 00:00:00  -  Total Local Usage

这意味着 Condor 开始了工作,并且工作退出(这是“正常终止”消息)并带有一些退出代码。在这种情况下,退出代码 -1073741515 是十六进制的 0xC0000135。这是一个特殊的 Windows 退出代码,意味着缺少 DLL。此应用程序是否需要预装在您的某些机器上而不是其他机器上的 DLL?

于 2018-06-20T22:07:01.650 回答