1

我正在关注教程(基本上就是这个),以便使用光线调谐进行超参数优化。我的模型在没有优化的情况下在 GPU 上训练良好,但现在我想优化。

我将教程应用到我的代码中,但是当我尝试开始这件事时:

result = tune.run(
    train,
    resources_per_trial={"gpu": 1},
    config=config,
    num_samples=10,
    scheduler=scheduler,
    progress_reporter=reporter,
    checkpoint_at_end=False,
)

我被困在:

TuneError: Insufficient cluster resources to launch trial: trial 请求 1 个 CPU、1 个 GPU,但集群只有 6 个 CPU、0 个 GPU、12.74 GiB 堆、4.39 GiB 对象(1.0 节点:XXX)。

但话又说回来,当我查看 ray 仪表板时:

射线仪表板

显然列出了两个 GPU。

为什么 ray tune 看不到我的 GPU?我该如何进行这项工作?

眼镜:

GPU 0: TITAN Xp
GPU 1: GeForce GTX 1080 Ti
CUDA 10.1
Python 3.7
PyTorch 1.7
Debian 9.12
ray tune 1.0.1.post1

//编辑:

ray.init(num_gpus=1)
ray.get_gpu_ids()

[]

4

0 回答 0