我有一个使用 tensor2tensor 用 tensorflow 编写的中等复杂度的模型。(如果相关,它使用 RNN。)模型保存到磁盘的速度相对较快(约 30 秒),但是当我尝试恢复它时,它似乎永远挂起。我给了它半个小时,它永远不会完成。
有趣的是,它能够在作业刚开始时相对有效地恢复模型。当我使用 top 检查正在运行的进程时,成功加载会占用 300% 的 cpu,而不成功的加载会占用大约 30% 的 cpu,而且只是偶尔。
我试图确保我使用的是 protobuf 的 C++ 实现,因为这可能是导致加载缓慢的原因之一。但是,不完全确定如何验证我正在使用它。