我们正在尝试解决与集群作业调度程序相关的问题。
问题是下面我们有一组在集群中执行的python脚本,启动过程目前是通过人工交互完成的,我的意思是开始测试我们有一个与集群交互的bash脚本来请求执行所需的资源。我们打算做的是构建一个自动启动过程(这应该是合理的,因为它实现了作业状态并基于此等待作业结束,重新启动执行等......)。基本上我们必须在用户工作站和集群之间实现一层。
另一个额外的困难是我们的层必须足够聪明才能与不同的集群作业调度程序交互。我们想知道是否存在帮助我们与集群交互而无需处理每个集群调度程序细节的工具或框架。我们在网上搜索过,但没有找到适合我们需要的东西。
顺便说一下,我们使用的编程语言是 Python。
提前致谢!
兄弟-