0

我在 Condor 中运行一个可执行文件,它基本上处理输入图像并将二进制图像保存在给定文件夹中。我在 213 张图片中使用了这个代码。

我的神鹰配置文件内容如下:

universe     = vanilla
executable   = /datasets/me/output_cpen_database/source_codes_techniques/test/vole
arguments    = cmfd -I /datasets/me/cpen_database/scale1/$(Process)/$(Process).png -O /datasets/me/output_cpen_database/scale1/dct/$(Process)/ --numThreads 10 --chan GRAY --featvec DCT --blockSize 16 --minDistEuclidian 50 --kdsort --fastsats --minSameShift 1000 --markRegions --useOrig --writePost --writeMatrix
initialdir   = /datasets/me/output_cpen_database/source_codes_techniques/test
requirements = (OpSysAndVer == "Ubuntu12")
request_cpus   = 5
request_memory = 20000
output       = logs/output-$(Process).log
error        = logs/error-$(Process).log
log          = logs/log-$(Process).log
Notification = Complete
Notify_User = mymail@gmail.com
Queue 214

有些图像处理正常,但在某些情况下,我的邮箱中收到以下错误:

Condor job 1273.47
/datasets/me/output_cpen_database/source_codes_techniques/test/vole cmfd -I /datasets/me/cpen_database/scale1/47/47.png -O    /datasets/me/output_cpen_database/scale1/dct/47/ --numThreads 10 --chan GRAY --featvec DCT --blockSize 16 --minDistEuclidian 50 --kdsort --fastsats --minSameShift 1000 --markRegions --useOrig --writePost --writeMatrix
died on signal 9 (Killed)

我在想这是不是因为内存不足而发生的,但是这张图片(名为 47)的大小不超过 20MB(实际上它有 16.7MB)。

正如我之前所说,condor 可以为其他一些图像运行这个可执行文件。

我应该增加配置文件中的 request_memory 吗?这里发生了什么?

4

1 回答 1

0

通常,在信号 9 上终止的作业意味着可执行文件所需的某些共享库出现问题。我要检查的是是否所有作业都死在特定主机上。如果是这种情况,您可以手动运行代码并查看是否收到缺少共享库的错误。

于 2015-09-01T20:43:51.297 回答