问题标签 [condor]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2545 浏览

hpc - Condor 中央管理器看不到其他计算节点

当我从中央管理器运行命令 condor_status 时,我使用 condor 作为中间件连接三台服务器以形成 HPC 集群,它没有显示其他节点我可以在中央管理器中运行作业并通过 SSH 连接到其他节点但似乎condor 配置文件中缺少某些内容,我将中央管理器设置为 condor 主机,并允许所有人读写。我将守护进程 MASTER, STARTD 保留在工作节点的守护进程列表中。

当我在中央管理器中运行 condor_status 时,它只显示中央管理器,当我在计算节点上运行它时,它给我错误“CEDAR:6001:Failed to connect to”,后跟中央管理器 IP 和端口号。

0 投票
1 回答
161 浏览

linux - 除了中央管理器之外,我无法向 condor 中的执行节点提交作业

我有一个由 4 台专用机器组成的 condor 池,其中一台设置为中央管理器、提交和执行节点,而另外三台设置为执行节点我使用 CentOS 5.4 作为所有机器的操作系统。我的问题是,当我从中央管理器提交作业时,它仅在中央管理器上运行,因此当我在 JDL 文件中指定作业应在除中央管理器之外的任何机器上运行时,作业将保持暂停状态并且不会运行。当我输入 condor_status 时,所有节点都会出现。我将守护进程 MASTER、STARTD 保留在执行节点的守护进程列表中。有没有人遇到过这个问题?

0 投票
1 回答
691 浏览

benchmarking - 如何使用 LINPACK 对 condor HPC 集群进行基准测试?

我有一个使用 condor 作为集群中间件的 HPC 集群,所有机器上的操作系统都是 CentOS,我安装了 MPICH2。如何对系统进行基准测试以获得最大 Gflops?我安装了 linpack 和 atlas 库,但没有找到如何在 condor 中使用它们的信息。

0 投票
2 回答
1395 浏览

python - 如何告诉 Condor 仅将作业分派给集群上安装了“numpy”的机器?

我刚刚弄清楚如何使用Condor发送要在集群上的机器上处理的作业。由于我们有很多机器,而且不是每台机器都配置相同,我想知道:

是否可以告诉 condor 只将我的作业(python 脚本)分派到机器上,因为我的脚本依赖于这个包,所以机器上安装了 numpy?

0 投票
1 回答
1430 浏览

condor - 空闲作业的 Condor 超时

我在一个 condor 集群上运行作业,但有些作业挂在空闲状态,似乎永远不会开始,更不用说完成了。condor_wait -wait n logfile那么,除了手动执行之外,condor_rm是否有一种更优雅(和自动,内置)的方式来终止挂起的工作?

相反,由于这些作业在 dagman 中,有没有办法让 dagman 中的作业超时,以便后面的作业可以运行?

0 投票
1 回答
153 浏览

python - 从本地目录使用 numpy

有没有办法从本地目录使用 numpy 而不将目录添加到 python 的路径?我问是因为我在没有安装 numpy 的机器上的 condor 上运行作业。我没有办法直接将numpy添加到这些机器上,我不相信我可以改变这些机器上的路径。我看过如何告诉 Condor 只将作业分派给集群上安装了“numpy”的机器?关于确定一台机器是否有 numpy,如果可能的话,我宁愿在所有机器上运行,而且我不确定我是否可以改变机器的 classId。

0 投票
0 回答
2062 浏览

c# - 未处理的异常:System.Runtime.InteropServices.COMException (0x80080005):

我做了打开 ms word 的 c# 代码,它运行正确。我想在 condor 环境中运行这个程序,但我遇到了一个错误,说..

我认为这个错误属于 MS Visual Studio C#。

0 投票
3 回答
1612 浏览

c++ - Condor 输出文件更新

我正在使用 Condor 运行几个模拟,并对程序进行了编码,以便它在控制台中输出进度状态。这是在循环结束时完成的,它只是打印当前时间(这也可以是百分比或经过的时间)。代码看起来像这样:

正常执行时(即在终端/cmd/bash 中)这工作正常,但秃鹰节点似乎没有printf()状态。仅在模拟完成后,所有状态更新都已输出到文件中,但不再使用。我提交给 condor 的 *.sub 文件如下所示:

提交后,程序执行(在 中确认condor_q)并且输出文件包含以下内容:

只有在程序完成运行其相应的输出文件后才会显示(示例):

在程序执行时,输出文件只包含START文本。所以我得出的结论是,如果节点执行程序很忙,文件不会更新。所以我的问题是,有没有办法手动更新输出文件或以更好的方式收集有关程序进度的任何信息?

已经谢谢了

最大限度

0 投票
2 回答
2862 浏览

c++ - 带有 libssh 的自定义命令

我正在使用 SSH 与 condor 服务器进行通信,并且需要调用命令以进行自定义控制(即condor_submitcondor_makecondor_q等)。在我的 Xcode 项目中下载并成功集成了 libSSH(是的,我使用的是 Mac OS),我发现提供的功能不支持自定义命令。教程说明这将在主机上执行命令:

资源

然而,当我"ls -l"用 let's say替换时"condor_q",命令似乎没有执行。我设法通过使用这样的交互式 shell 会话来解决这个问题:

所以我的问题是,有没有一种更简单的方法可以通过 SSH 发送自定义命令,而不必“假发送”命令?

谢谢

最大限度

0 投票
2 回答
281 浏览

directed-acyclic-graphs - Condor DAG 文件 - 有许多孩子的父母。用多行而不是一行表示孩子的父母是否合法?

这是我所拥有的简单树:

A 和 B 是父进程,C 只能在 A 和 B 完成后运行。通常,DAG 文件如下所示:

我想知道是否有人知道以下是否也可以工作:

我查看了 Condor DAG 文档,但没有多大帮助。

谢谢!