2

我正在使用运行科学工作流的范围检查 Apache Aurora(假设一组特定序列的 python 脚本)。我已经成功地运行了其中一些极光作业,它看起来非常适合我的特定用例。

我想知道是否有一种方法可以指定特定任务(或一般作业)需要我的 Apache Mesos 集群中的大量 GPU 资源当然 Mesos 需要首先了解 GPU 资源,看起来这是可以通过定义这些 GPU 资源(如此处所示)实现。

所以问题是是否有办法通过 Aurora 与 Mesos 通信,以接受可用 GPU 资源的报价。据我所知,Aurora 中的 Resource 对象仅限于 CPU/Ram/Disk 资源。非常感谢任何提示。

谢谢!

4

2 回答 2

1

在查看Aurora 教程时,我假设您可以将此资源指定为工作描述的一部分: resources = Resources(cpu = 2, ram = 4*GB, disk = 8*GB, gpu = 1),

请记住,这是 Mesos 的人工资源,因此在这种情况下,Mesos 不会处理资源隔离。例如,如果您在一个系统上有多个 GPU,则您的代码必须管理不同 GPU 之间的隔离/调度。

于 2015-06-16T11:57:48.710 回答
0

我不熟悉 Apache Aurora,但 Mesosphere Marathon(功能类似于 Aurora 的框架)也仅限于 cpu、mem 和磁盘资源。

如果您想使用自定义资源,您可能需要编写自己的框架。根据您的需要,这可能不是那么困难。如需灵感,请查看RENDLER框架。

如您所引用的线程中所述,Mesos 不为 GPU(实际上,对于任何自定义)资源提供隔离。在进行资源数学时请记住这一点。

于 2015-06-16T09:15:09.637 回答