0

为什么在运行模型 2 小时后,我得到一个弹出窗口,上面写着:

    Runtime disconnected

    The connection to the runtime has timed out.


                     CLOSE             RECONNECT

我重新启动了运行时,并认为我有 12 个小时来训练模型。任何想法如何避免这种情况?我的另一个问题:是否可以使用 TF 或 Python API 找出运行时断开连接的剩余时间?

4

1 回答 1

0

当笔记本进入“空闲”模式超过 90 分钟时,运行时会断开连接。这是一个非官方的数字,因为 google colab 没有关于此的官方发布。这就是 google colab 通过厚颜无耻地回答而摆脱它的方式:

Colab 官方常见问题解答的摘录

我的代码在哪里执行?如果我关闭浏览器窗口,我的执行状态会怎样?

代码在专用于您帐户的虚拟机中执行。虚拟机在空闲一段时间后会被回收,并具有系统强制执行的最长生命周期。

因此,为避免这种情况,请保持浏览器打开,并且不要让系统睡眠时间超过 90 分钟。

这也意味着如果您碰巧在 90 分钟内关闭了浏览器,那么如果您在 90 分钟内重新打开笔记本,您的所有正在运行的进程和会话变量仍然完好无损!

另外,请注意,目前您最多可以运行笔记本 12 小时。(当然处于“非空闲”状态)。

要回答您的第二个问题,这种“空闲状态”的东西是 colab 的东西。所以我不认为 TF 或 Python 与它有任何关系。

因此,最好定期将模型保存到文件夹中。这样,在您的运行时断开连接的不幸事件中,您的工作不会丢失。您可以简单地从最新保存的模型重新开始训练!

PS:我从一位用户的实验中得到了 90 分钟的数字

于 2019-11-09T23:32:17.690 回答