0

我简要描述了我的用例:假设我想在 AWS 上启动一个有 10 个工作人员的集群:过去我总是使用initial_workers: 10, min_workers: 0, max_workers: 10options ( cluster.yaml) 来将集群启动到最大容量,然后利用集群的自动缩减基于空闲时间。因此,在作业结束时,几乎所有试验都已终止并且不再需要集群的全部容量,节点会自动删除。现在initial_workers选项消失了#12444,我还不清楚如何完成相同的缩小行为。

我尝试了在ray.autoscaler.sdk.request_resources之前和之后请求资源(我也尝试设置,但由于某种原因升级非常缓慢,并且似乎一次只添加一个节点(我正在请​​求 GPU)。也总是只有一个待处理的任务我还不太了解(不幸的是,我也没有时间完全调查这个问题:()tune.runmin_workersupscaling_speed

目前我正在使用上面描述的编程方式,它工作得很好,但是在工作结束时我有很多空闲资源,这些资源在我可以缩减之前运行了几个小时。

如果有人能指出我解决这个问题的正确方向,那就太好了。

谢谢

4

1 回答 1

0

ray1.30 版中,我观察到的自动扩缩器问题似乎得到了解决,现在集群可以按预期通过待定试验进行扩展(使用 AWS ec2 g4dn 实例)。所以不再需要intial_workers选项了。

于 2021-04-26T10:32:47.850 回答