5

我正在尝试确定我们是否应该在工作中试用 Condor 或 Sun Grid Engine(或者可能是其他东西)。

我们经常有很多未使用的 WinXp 工作站。希望我们可以使用 LAN 唤醒,运行我们所有的作业,然后自动关闭。我们主要为蒙特卡罗或参数探索运行 Matlab、Java 或 Python 模拟。

由于我对 Condor 的了解有限,听起来使用 vm Universe 可能是一种无需修改现有代码即可处理快照的便捷方式。

SGE 或其他东西比 condor 更适合这种工作吗?

4

7 回答 7

4

SGE 并不真正支持 Windows。它带有各种警告和 Windows 上的缺失部分

多年来,我一直在运行 Condor 池,它是一个出色的 HTPC 设置,适用于 Linux 和 Windows 机器上的循环窃取和专用、始终在线的硬件。他们最近添加的Rooster 守护程序让您可以让机器在工作周期之间进入睡眠状态,并在池中出现新工作时唤醒它们。他们还有一个活跃且非常有帮助的支持社区。检查点是唯一在 Windows 上不可用的 Condor 功能。其他一切都在那里。随着 VM Universe 的加入,检查点变得越来越没用。真的:要成功使用检查点,您需要能够重新链接整个代码堆栈。因此,如果您正在运行 Matlab 作业,即使在 Linux 上,检查点也是不可能的。

如果您有关于让 Condor 在 Windows 上运行的具体问题,我很乐意回答,分享我的经验。我在全球 4 个池中运行 Condor,所有池中总共有大约 1500 台专用机器,以及大约 1000 台左右的额外桌面机器,用户愿意捐赠它们。

于 2010-03-09T04:35:44.400 回答
3

我会从Condor开始。它对 Windows 有很好的支持,当作业可以在某些机器上运行时,较新的版本内置了以非常可配置的方式发送唤醒局域网的支持。它还可以根据用户定义的策略关闭机器。

于 2009-12-07T15:04:51.827 回答
3

对于专用硬件,我会使用 Grid Engine。

为了在可能正在使用的机器上清除时钟周期,我会选择 Condor。

对于您可以在固定时间段(例如通宵和周末)专门访问的硬件,我可能仍会选择 Condor,但可能会说服自己使用 Grid Engine。

于 2009-12-07T16:32:50.757 回答
3

在 Oracle 收购 SGE(Sun Grid Engine)之后,还有 Open Grid Scheduler 项目,它仍然提供开源 Grid Engine。

http://gridscheduler.sourceforge.net/

于 2011-07-01T17:57:13.883 回答
1

最近,我不得不为一个客户项目在 Condor 和 SGE 之间做出选择。我偏爱 SGE(因为我更熟悉那个环境),但 Condor 最终赢了,因为:

  • 客户基础设施是面向 Windows 的,SGE 解决方案需要 Unix 或 Linux 机器作为 Central Manager,+ 在计算主机上安装 MS Services for Unix
  • Condor 在 Windows 上的支持和安装过程要简单得多。

但是,您不能在 Windows 上使用 Condor 最有趣的功能:检查点不可用,Condor 特定的 IO 也不可用。我没有使用虚拟机宇宙,所以我无法评论这方面。

于 2010-02-26T07:36:04.583 回答
0

我只尝试过Condor,尝试设置很痛苦。如果您需要可以充分利用的所有时钟周期,请使用 Condor。

我即将尝试 SGE,我会告诉你进展如何。但是在我公司,人们有建立 SGE 的经验,所以我可能会说 SGE 更容易。

于 2010-02-23T16:21:18.820 回答
0

SGE 不存在……它是 OGE,而且非常昂贵。和秃鹰一起去。

于 2010-11-30T14:25:46.093 回答