我在一个研究小组工作,主要从事机器学习和计算生物学。
我们目前有一个集群,但维护不善,I/O 吞吐量低,最关键的是没有任何调度或负载平衡设置。因此,要使用它,您必须自己找到一个空闲节点,通过 ssh 进入该节点,在命令行上运行您的脚本,然后手动收集您的结果。
实现易于使用的调度程序和负载平衡器的最佳软件堆栈是什么,以便用户可以将他们的作业提交到中央队列,当资源可用时自动运行,并轻松获取结果?
我在一个研究小组工作,主要从事机器学习和计算生物学。
我们目前有一个集群,但维护不善,I/O 吞吐量低,最关键的是没有任何调度或负载平衡设置。因此,要使用它,您必须自己找到一个空闲节点,通过 ssh 进入该节点,在命令行上运行您的脚本,然后手动收集您的结果。
实现易于使用的调度程序和负载平衡器的最佳软件堆栈是什么,以便用户可以将他们的作业提交到中央队列,当资源可用时自动运行,并轻松获取结果?