问题标签 [condor]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 HTCondor 中导入本地 python 模块
这涉及在 HTCondor 作业中导入我自己的 python 模块。
假设“mymodule.py”是我要导入的模块,并保存在名为 XDIR 的目录中。在另一个名为 YDIR 的目录中,我编写了一个名为 xImport.py 的文件:
和一个秃鹰提交文件:
提交的结果是,在 xImport.out 中,打印出 sys.path,显示 XDIR。但是在 xImport.error 中,有一个 ImporError 说“没有名为 mymodule 的模块”。所以看起来mymodule的路径在sys.path中,但是python没有找到。我还想提一下,错误消息说 ImportError 来自文件
而不是YDIR/xImport.py
。
如何编辑上述文件以导入 mymodule.py?
java - 在 Condor 的香草宇宙中使用 java
我在一个由 Python 脚本和 Java 文件两部分组成的 condor 集群中有一份工作。我想运行 python 脚本并让它调用 jar 文件,并且只在安装了 Java 的机器上运行。有没有办法做到这一点?集群中的许多机器都没有安装 Java,因此当我运行脚本时出现错误。基本上,我想在我的工作中添加一个要求,让它在有一个名为“java”的可执行文件的机器上运行。
linux - Condor 沙盒 R(在 Linux 上)
我的大学运行一个 condor 计算网格(计算节点运行 Linux),我想用它在 R 中运行模拟。问题是网格上只有一些机器安装了 R。到目前为止,我看到了两个选项,但我不知道如何实现任何一个,所以我希望你能帮助我(请记住,我不是系统管理员,不能做太多更改设置计算节点):
1) 在与我的 condor 提交文件一起发出的 ClassAds 中进行检查,以要求在具有/usr/bin/R
.
2) 将 R 及其所有依赖项打包到一个独立的目录中,该目录可以发送到计算节点,并且可以针对该目录运行我的模拟。我已经尝试了几个小时来执行此操作,但是 R 的 Linux 版本(与 OSX 和 Windows 版本不同)似乎针对分布在文件系统中的库运行,我想不出一种实用的方法来收集它们全部放到 R 可以找到它们的位置。
有任何想法吗?提前致谢。
bash - condor:提交 bash 作业时引用不匹配的引号
我为一个工作写了一个 conder 脚本并condor_submit
用来提交这个工作。下面是我的脚本:
如上所示,可执行文件是bash
,我-c
用来将命令作为字符串传递给 bash。err
作业提交正常,但我在输出文件中收到以下错误消息:
这只是 bash 抱怨不匹配的双引号。但是双引号对我来说看起来不错。我不知道问题是什么。这似乎是一个秃鹰问题。有任何想法吗?
installation - 在 Ubuntu 上安装 condor 包的问题
我尝试在 Ubuntu 12.10 上安装 condor 包,但出现错误消息。
这些图片显示了我的问题:
shell - 使用 shell 输出对 condor 进行错误处理
我需要使用 shell 向 condor(多客户端执行网格)提交多个模拟,因为这可能需要一段时间,所以我决定编写一个 shell 脚本来为我做这件事。我对 shell 脚本非常陌生,这是我一天所做的结果:
该脚本运行 0..50 次模拟并将 0..10 个不同的参数提交给生成 condor 提交配置文件的程序。然后我提交此配置文件并让它执行 15 分钟(每分钟进行一次调用以确保 SSH 管道不会中断)。一旦 15 分钟结束,我将输出压缩到具有更多空间的卷并擦除原始文件。
我实施这个的原因是因为我们的 condor 系统一次只能处理多达 10,000 个提交,而一个提交 ( condor_submit profile.sub
) 执行 7000 多个模拟。
现在我的问题是这条线。当我今天早上检查时,我(幸运地)发现condor_submit profile.sub
如果网络太忙,调用时可能会导致错误。错误代码是:
这意味着不时会丢失整个迭代!我该如何解决这个问题?我看到的唯一方法是使用 shell 读取终端输出的最后一行并评估它们是否遵循预期的响应,即:
但是我将如何阅读最后一行并检查错误?
非常需要任何帮助,非常感谢
condor - 避开秃鹰中的特定宿主
我的 condor 网格中有一台主机由于某种原因很糟糕,即在此主机上运行的作业将永远运行。我不是管理员,无法登录,因此我无法调查,也无法将其排除在网格之外。我想简单地在我的提交文件中指定我不想在该主机上运行作业。这个的语法是什么?
google-compute-engine - 在 Google Compute Engine 上设置和运行网格作业的工具?
我需要在 Google Compute Engine 上设置和运行“令人尴尬”的并行作业。我正在寻找工具来促进这一点。
在 EC2 上,我使用 MIT 的 Starcluster 来设置集群,然后将作业提交给 SGE。
Google Compute Engine 是否有类似的工具可用?
如果没有,我可能会手动设置一个 Condor 集群来完成这些工作。嗡嗡声杀。
hadoop - 将单个进程分布在集群中的最佳方法
我对集群计算非常陌生,想更多地了解用于集群计算的各种软件,哪些软件最适合特定任务。特别是,我试图解决的问题涉及 Manager/Workers 类型的场景,其中一个 Manager 负责创建 100 到 1000 个工作。每个作业虽然相对较大,但必须逐帧执行。即经理会告诉每个工作,“提前一帧并向我报告”。单个帧的执行将非常小,因此 Manager 和 worker 机器之间的延迟必须非常小,大约为微秒。
谢谢!任何信息都将不胜感激,即使是那些不完全符合我所描述的场景的信息,只是为了给我一个起点。到目前为止,我研究过的一些是 Hadoop、HTCondor 和 Akka。
linux - Condor 作业 - 将 shell 脚本作为可执行文件运行
我正在尝试运行 Condor 作业,其中可执行文件是调用某些 Java 类的 shell 脚本。
这是 /script/testingNew.sh 文件的内容——(只是因为我遇到了错误,我现在已经删除了 Java 命令)
此外,这是来自 Condor 的错误日志——
谁能解释导致此错误的原因,以及如何解决此问题?testingNew.sh 脚本在 Linux 机器上运行良好,如果在网络机器上单独执行。多谢!!- GR