我正在尝试确定我们是否应该在工作中试用 Condor 或 Sun Grid Engine(或者可能是其他东西)。
我们经常有很多未使用的 WinXp 工作站。希望我们可以使用 LAN 唤醒,运行我们所有的作业,然后自动关闭。我们主要为蒙特卡罗或参数探索运行 Matlab、Java 或 Python 模拟。
由于我对 Condor 的了解有限,听起来使用 vm Universe 可能是一种无需修改现有代码即可处理快照的便捷方式。
SGE 或其他东西比 condor 更适合这种工作吗?
我正在尝试确定我们是否应该在工作中试用 Condor 或 Sun Grid Engine(或者可能是其他东西)。
我们经常有很多未使用的 WinXp 工作站。希望我们可以使用 LAN 唤醒,运行我们所有的作业,然后自动关闭。我们主要为蒙特卡罗或参数探索运行 Matlab、Java 或 Python 模拟。
由于我对 Condor 的了解有限,听起来使用 vm Universe 可能是一种无需修改现有代码即可处理快照的便捷方式。
SGE 或其他东西比 condor 更适合这种工作吗?
SGE 并不真正支持 Windows。它带有各种警告和 Windows 上的缺失部分。
多年来,我一直在运行 Condor 池,它是一个出色的 HTPC 设置,适用于 Linux 和 Windows 机器上的循环窃取和专用、始终在线的硬件。他们最近添加的Rooster 守护程序让您可以让机器在工作周期之间进入睡眠状态,并在池中出现新工作时唤醒它们。他们还有一个活跃且非常有帮助的支持社区。检查点是唯一在 Windows 上不可用的 Condor 功能。其他一切都在那里。随着 VM Universe 的加入,检查点变得越来越没用。真的:要成功使用检查点,您需要能够重新链接整个代码堆栈。因此,如果您正在运行 Matlab 作业,即使在 Linux 上,检查点也是不可能的。
如果您有关于让 Condor 在 Windows 上运行的具体问题,我很乐意回答,分享我的经验。我在全球 4 个池中运行 Condor,所有池中总共有大约 1500 台专用机器,以及大约 1000 台左右的额外桌面机器,用户愿意捐赠它们。
我会从Condor开始。它对 Windows 有很好的支持,当作业可以在某些机器上运行时,较新的版本内置了以非常可配置的方式发送唤醒局域网的支持。它还可以根据用户定义的策略关闭机器。
对于专用硬件,我会使用 Grid Engine。
为了在可能正在使用的机器上清除时钟周期,我会选择 Condor。
对于您可以在固定时间段(例如通宵和周末)专门访问的硬件,我可能仍会选择 Condor,但可能会说服自己使用 Grid Engine。
在 Oracle 收购 SGE(Sun Grid Engine)之后,还有 Open Grid Scheduler 项目,它仍然提供开源 Grid Engine。
最近,我不得不为一个客户项目在 Condor 和 SGE 之间做出选择。我偏爱 SGE(因为我更熟悉那个环境),但 Condor 最终赢了,因为:
但是,您不能在 Windows 上使用 Condor 最有趣的功能:检查点不可用,Condor 特定的 IO 也不可用。我没有使用虚拟机宇宙,所以我无法评论这方面。
我只尝试过Condor,尝试设置很痛苦。如果您需要可以充分利用的所有时钟周期,请使用 Condor。
我即将尝试 SGE,我会告诉你进展如何。但是在我公司,人们有建立 SGE 的经验,所以我可能会说 SGE 更容易。
SGE 不存在……它是 OGE,而且非常昂贵。和秃鹰一起去。