我简要描述了我的用例:假设我想在 AWS 上启动一个有 10 个工作人员的集群:过去我总是使用initial_workers: 10
, min_workers: 0
, max_workers: 10
options ( cluster.yaml
) 来将集群启动到最大容量,然后利用集群的自动缩减基于空闲时间。因此,在作业结束时,几乎所有试验都已终止并且不再需要集群的全部容量,节点会自动删除。现在initial_workers
选项消失了#12444,我还不清楚如何完成相同的缩小行为。
我尝试了在ray.autoscaler.sdk.request_resources
之前和之后请求资源(我也尝试设置,但由于某种原因升级非常缓慢,并且似乎一次只添加一个节点(我正在请求 GPU)。也总是只有一个待处理的任务我还不太了解(不幸的是,我也没有时间完全调查这个问题:()tune.run
min_workers
upscaling_speed
目前我正在使用上面描述的编程方式,它工作得很好,但是在工作结束时我有很多空闲资源,这些资源在我可以缩减之前运行了几个小时。
如果有人能指出我解决这个问题的正确方向,那就太好了。
谢谢