问题标签 [condor]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - 如何只使用一个节点进行 Condor 集群作业?
我需要在 Condor 集群上运行大量作业(管道),但它必须在一个节点上。所以我需要做两件事:
如何向 Condor 询问可用节点?
如何告诉 Condor 在该节点上运行作业?
我想这很简单,但我对文档很深,没有运气。
r - 如何从 CONDOR 获取队列号到您的 R 作业中
我想我有一个简单的问题,因为我在互联网上上下查找并找不到其他人问这个问题:我的大学有一个 Condor 设置。我想多次重复相同的代码(例如 100 次)。我的 R 代码有一个将结果存储在文件中的例程,即:
res 是我的结果(一个 data.frame),我指出这个文件包含带有“res”的结果,最后我想添加这个计算的队列号(否则文件将被替换,不是吗?)。它应该看起来像:140109_res_1.csv、140109_res_2.csv、...
我向秃鹰提交的文件如下所示:
我想知道如何将“队列”编号输入我的 R 代码?我尝试了一个简单的例子
但是没有找到名为 queue 或 Queue 的对象。有什么建议么?最好的祝愿,马可
bash - bash 脚本中的 condor_qsub 奇怪行为
我正在尝试编写一个 bash 脚本来检查工作站中可用的网格引擎类型,并根据它开始提交作业。所有作业都是简单的 bash 脚本,这个 bash 脚本还尝试将text.sh
脚本写入本地目录,然后尝试提交这些作业。在秃鹰的情况下,我很难让它发挥作用,并且花费了大量时间来解决这个问题,但没有成功。问题是当我尝试这个时,我得到了错误condor_qsub '-n' unrecognized option
。虽然我从未为 condor_qsub 分配过这样的选项,如下所示。
请注意,上面的片段只是一个大脚本的一部分,我已将问题缩小到上述部分。
condor - How can I check the status of the specific job that was send to HTcondor?
Is there a way to check the status of the specific job (e.g by cluster/process id) and how to retrieve those ids when job is submitted?
condor - 强制 Condor 超时以退出 (0)
我附上了以下行
到一个 condor 子文件,并且工作在 20 分钟后中止,如我所愿。但是,此子文件是 DAG 文件的一部分,并且由于作业被中止,DAG 文件将不会移动到后续作业。
有没有办法让这个超时代码在 DAG 调度器眼中表现得像成功一样,以便调度器启动后续作业?
第一次编辑
我想我可能已经找到了答案的提示:
您可以使用这些表达式自动执行许多常见操作。例如,假设您知道您的作业永远不会运行超过一个小时,如果它运行超过一个小时,则可能有问题需要调查。Condor 可以让您的作业在集群上不必要地运行,而不是让您的作业暂停,并将以下内容添加到提交文件中:
或者假设你有一个偶尔会出现段错误的工作,但你知道如果你在相同的数据上再次运行它,它很可能会成功完成。您可以通过将此行添加到提交文件来获得此行为:
如果作业由信号退出并且该信号编号为 11(表示分段错误),则上述表达式不会让作业离开队列。在作业退出的任何其他情况下,它将离开队列。
此信息是此处整体 condor 教程的一部分:http: //etutorials.org/Linux+systems/cluster+computing+with+linux/Part+III+Managing+Clusters/Chapter+15+Condor+A+Distributed+Job +调度程序/15.2+使用+Condor/
谁能验证这是否是正确的轨道?
distributed-computing - 如何强制 Condor 向集群中的所有节点提交作业?
我有一个有多个节点处于活动状态的秃鹰集群。
但是当我提交作业时,它只在单个节点(即主节点)上运行。我知道 Condor 会根据可用资源自动分配工作。
但是如果我想强制 condor 使用所有节点呢?只是为了评估在多节点和单节点上运行时的处理时间?
我尝试在提交文件中添加 requirements = Machine == "hostname1" && Machine == "hostname2" ,但不起作用。
parallel-processing - Condor 中的并行处理
我有一个可以处理 800 张图像的 java 程序。
我决定使用 Condor 作为分布式计算的平台,目标是我可以将这些图像划分到可用节点上 -> 得到处理 -> 将结果组合回给我。
假设我有 4 个节点。我想将处理划分为每个节点上的 200 个图像,并将最终结果组合回给我。
我尝试通过将其作为 java 程序提交并说明要求 = Machine == .. (说明所有节点)来正常执行它。但这似乎不起作用。
如何划分处理并并行执行?
io - Win7 上的 Condor:连接问题 (Errno 10054)
根据本指南,我已经在几台 Win7(32/64 位)计算机上安装了 condor 8.2.0:http ://www.slideshare.net/gtelzur/condor8-win-install所有服务都在同一台机器上运行,因此我排除物理网络中断。
每当创建/提交作业时,它都处于空闲模式。详细查看日志文件会发现以下问题(ShadowLog):
我找不到有关 ID 为 10054 的 IO 异常的更多详细信息。除此之外,如果我搜索“Condor IO: Failed to read packet header”,Google 不会给我有用的提示。
你知道什么可以解决这个问题吗?
condor - 可以通过 STDOUT 来 condor 显示结果
我正在使用以下两个命令将输出流回提交机器:
是否可以将输出流式传输到提交机器上的标准输出而不是文件 out.txt?
python - 错误:“filetest.submit”不包含任何“队列”命令——没有作业排队
我正在编写一个 python 脚本,它创建一个 Condor 提交文件,向其中写入信息,然后将其提交以在 Condor 上运行。
我不明白的是,我收到错误消息,说没有“队列”命令。
我打开了创建的提交文件,它显示为..
等等。由参数、输出和队列组成的每个部分都以队列语句结尾,并且它的格式是这样的。
是什么导致它没有注意到队列?
谢谢!