-1

我在 HPC 设置中部署 Optuna。由于我改变的超参数会影响训练持续时间,因此我面临着将试验报告为 FAILED 的问题,因为已达到工作的时间限制。在我看来,这个问题的最干净的解决方案是将试验状态设置为等待,并在收到 TERM 信号时保存检查点文件。然后可以在下一批试验中完成试验。

有没有办法手动设置状态并防止它被记录为失败?

4

0 回答 0