我正在使用 OpenCV AI Kit 进行培训。这是链接。我正在运行 Google Colab 的 PRO 版本。但现在它会运行到 17500 个 epoch,然后断开连接,我的所有文件和进度都将丢失。这意味着我必须重新开始训练并降低我的 epoch 数,这并不理想。
我在一个较小的数据集上运行了这个特殊的 Colab,它运行良好。但是现在在一个更大的数据集上,如果运行时完全断开连接,我会想恢复我的训练,进而中断我的训练进度。我还有一个名为 Collab 的 Chrome 插件,它可以保持运行时的运行,并且我实现了确保我的 Collab 上有活动的代码。但是经过几个小时后,我所有的进步都消失了。我还检查了关于这个主题的相关帖子,但没有解决我的问题。
RAM 和磁盘空间偏低,因此它不会耗尽内存或磁盘空间......我的想法不多了。