问题标签 [condor]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - HTCondor Shadow 异常:[Errno 8] Exec 格式错误
我是 HTcondor 的新手,通过 Putty 提交作业后,作业被搁置,日志文件显示以下错误:
以下是我的提交描述文件:
在这种情况下,my_prog.ipynb 本身具有读取本地四个文件的代码作为输入,同时,my_prog.ipynb 还包含将结果写入本地文件的“打印”命令。
基于这种情况,我真的很困惑我是否也应该在提交描述文件中配置参数?
请给我任何小提示,这个问题让我困难了3天......
任何建议将不胜感激!
谢谢!
distributed-computing - HTCondor 作业提交标签
我想在我们的 HTCondor 池上运行不同批次的作业。假设 10 个 Type1 的工作,20 个 Type2 的工作,依此类推。当前作业完成后,这些作业类型中的每一个都应获得新作业。
如果所有作业都已完成,或者整个作业批次的时间限制是否已通过,我只使用一种类型进行简单查询。如果满足其中一个要求,则将 x 个作业的下一次迭代提交给集群。
这是由一个小函数完成的(用 Lua 编写,这对这个问题并不重要):
有没有可能将Type1、Type2和Type3的工作分开并独立检查?目前它以我当前用户的身份检查所有工作。
为作业添加标签或其他东西是理想的,因为我可以简单地更改检查调用。在文档中我找不到任何易于添加的内容,我可以记住 JobID-s,但是我将不得不存储那些增加更多复杂性的内容。
condor - 如何测试我的任何 HTCondor 作业是否返回非零错误代码?
我有一个脚本condor_submit
为一批 25 个作业运行,condor_wait
让它们全部完成,然后condor_submit
为另一批 pf 25 个作业运行另一个脚本。
我想确保前 25 个作业都没有失败Normal termination (return value 127)
(任何非零返回值)。
我怎样才能轻松做到这一点?或者,如果这是不可能的,我也愿意将我的作业可执行文件包装在一个脚本中,以防它们返回非零 - 但我不确定如何让 HTCondor 作业失败!
gcc - HTCondor gcc:尝试执行“cc1”时出错:execvp:没有这样的文件或目录
当我使用 HTCondor 提交包含类似内容的 shell 脚本gcc code.c -o code.o
时,错误文件会说error trying to exec 'cc1': execvp: No such file or directory
。但是,当我gcc code.c -o code.o
在执行机器上输入 shell 时,一切正常。有人知道原因吗?我正在开发 ubuntu-16.04.2-server-amd64。
condor - HTCondor Python API
我正在尝试使用 python API 从没有安装 condor 的机器提交作业,但我遇到了很多麻烦。
我做了'pip install htcondor',当我导入它时,我得到:
这里有什么问题?要从这样的客户端机器上使用 API,我必须安装和配置完整的 condor 吗?我不认为这是必要的。
无论如何,我一直在努力,我尝试了这个:
我在这里做错了什么?
python - 调试运行 python 脚本的 htcondor 问题
我正在向 condor 提交一个 python 脚本。当 condor 运行它时,它会出现导入错误。Condor 将其作为 /var/lib/condor/execute/dir_170475/condor_exec.exe 运行。如果我手动将python脚本复制到执行机器并将其放在同一个地方并运行它,它不会收到导入错误。我想知道如何调试这个。
如何查看 condor 用于运行它的命令行?复制到 /var/lib/condor/execute/dir_170475/condor_exec.exe 的文件可以在失败后保留以便我看到吗?关于如何调试它的任何其他建议?
condor - 什么原因导致 (0) Condor 异常终止(信号 11)
在 HTCondor 中运行 python 脚本时,作业终止并在 .log 文件中出现以下错误代码:
什么会导致这样的错误以及如何纠正它?
谷歌搜索后,我发现了一个 mialing 列表,建议添加该行
在提交文件上,我这样做了,但没有解决问题,我收到了同样的错误。
感谢您的帮助/建议
condor - 在 HTCondor 中检索创建的输出文件
我正在使用 HTCondor 运行一项需要大量时间(数十小时)并定期生成文件(数十分钟)的作业。我希望 HTCondor 在创建文件后立即将文件传输到我的提交目录。我怎样才能做到这一点?
秃鹰有什么本机选项可以让我这样做吗?有替代方法吗?
scp
我也可以尝试mv
创建文件,但我不知道如何手动将文件从 condor 传输到我的个人空间
condor - 仅在使用小于 RAM 阈值时才运行 condor 作业
我有一个具有 132 个插槽的执行主机,并且 condor 会很高兴地在那里运行 132 个作业。但是根据工作,这 132 个可以使用所有 RAM 并导致交换并最终丢弃。如何设置一个配置选项,上面写着“如果使用的 RAM 超过 nnGB,则不要运行作业”?
我已阅读https://htcondor-wiki.cs.wisc.edu/index.cgi/wiki?p=HowToLimitMemoryUsage 但它没有说明如何执行此操作。
当我说 RAM 已使用时,我指的是我在 free 中使用的列中看到的数字: