为什么在运行模型 2 小时后,我得到一个弹出窗口,上面写着:
Runtime disconnected
The connection to the runtime has timed out.
CLOSE RECONNECT
我重新启动了运行时,并认为我有 12 个小时来训练模型。任何想法如何避免这种情况?我的另一个问题:是否可以使用 TF 或 Python API 找出运行时断开连接的剩余时间?
为什么在运行模型 2 小时后,我得到一个弹出窗口,上面写着:
Runtime disconnected
The connection to the runtime has timed out.
CLOSE RECONNECT
我重新启动了运行时,并认为我有 12 个小时来训练模型。任何想法如何避免这种情况?我的另一个问题:是否可以使用 TF 或 Python API 找出运行时断开连接的剩余时间?
当笔记本进入“空闲”模式超过 90 分钟时,运行时会断开连接。这是一个非官方的数字,因为 google colab 没有关于此的官方发布。这就是 google colab 通过厚颜无耻地回答而摆脱它的方式:
我的代码在哪里执行?如果我关闭浏览器窗口,我的执行状态会怎样?
代码在专用于您帐户的虚拟机中执行。虚拟机在空闲一段时间后会被回收,并具有系统强制执行的最长生命周期。
因此,为避免这种情况,请保持浏览器打开,并且不要让系统睡眠时间超过 90 分钟。
这也意味着如果您碰巧在 90 分钟内关闭了浏览器,那么如果您在 90 分钟内重新打开笔记本,您的所有正在运行的进程和会话变量仍然完好无损!
另外,请注意,目前您最多可以运行笔记本 12 小时。(当然处于“非空闲”状态)。
要回答您的第二个问题,这种“空闲状态”的东西是 colab 的东西。所以我不认为 TF 或 Python 与它有任何关系。
因此,最好定期将模型保存到文件夹中。这样,在您的运行时断开连接的不幸事件中,您的工作不会丢失。您可以简单地从最新保存的模型重新开始训练!
PS:我从一位用户的实验中得到了 90 分钟的数字