python - 在 PyTorch 中保存训练模型的最佳方法是什么？

Question

我一直在寻找在 PyTorch 中保存训练模型的替代方法。到目前为止，我找到了两种选择。

torch.save()保存模型和torch.load()加载模型。
model.state_dict()保存训练好的模型，model.load_state_dict()加载保存的模型。

我遇到过这个讨论，其中建议使用方法 2 而不是方法 1。

我的问题是，为什么首选第二种方法？仅仅是因为torch.nn模块具有这两个功能，我们被鼓励使用它们吗？

score 312 · Accepted Answer

在他们的 github repo 上找到了这个页面，我将在这里复制粘贴内容。

保存模型的推荐方法

序列化和恢复模型有两种主要方法。

第一个（推荐）只保存和加载模型参数：

torch.save(the_model.state_dict(), PATH)

然后后来：

the_model = TheModelClass(*args, **kwargs)
the_model.load_state_dict(torch.load(PATH))

第二个保存并加载整个模型：

torch.save(the_model, PATH)

然后后来：

the_model = torch.load(PATH)

但是在这种情况下，序列化的数据绑定到特定的类和使用的确切目录结构，因此在其他项目中使用时，或者经过一些严重的重构后，它可能会以各种方式中断。

更新：另请参阅PyTorch 教程中的保存和加载模型部分

score 204 · Accepted Answer

这取决于你想做什么。

案例#1：保存模型以便自己使用它进行推理：保存模型，恢复它，然后将模型更改为评估模式。这样做是因为您通常拥有默认情况下在构建时处于训练模式BatchNorm的Dropout层：

torch.save(model.state_dict(), filepath)

#Later to restore:
model.load_state_dict(torch.load(filepath))
model.eval()

案例#2：保存模型以便稍后恢复训练：如果您需要继续训练您将要保存的模型，您需要保存的不仅仅是模型。您还需要保存优化器的状态、时期、分数等。您可以这样做：

state = {
    'epoch': epoch,
    'state_dict': model.state_dict(),
    'optimizer': optimizer.state_dict(),
    ...
}
torch.save(state, filepath)

要恢复训练，您可以执行以下操作：state = torch.load(filepath)，然后恢复每个对象的状态，如下所示：

model.load_state_dict(state['state_dict'])
optimizer.load_state_dict(state['optimizer'])

由于您正在恢复训练，因此不要model.eval()在加载时恢复状态后调用。

案例#3：模型被其他人使用而无法访问你的代码：在Tensorflow中，你可以创建一个.pb文件来定义模型的架构和权重。这非常方便，特别是在使用Tensorflow serve. 在 Pytorch 中执行此操作的等效方法是：

torch.save(model, filepath)

# Then later:
model = torch.load(filepath)

这种方式仍然不是防弹的，而且由于 pytorch 仍在经历很多变化，我不推荐它。

score 32 · Accepted Answer

pickle Python 库实现了用于序列化和反序列化 Python 对象的二进制协议。

当您import torch（或当您使用 PyTorch 时）它会import pickle为您服务并且您不需要直接调用pickle.dump()和pickle.load()，这是保存和加载对象的方法。

事实上，torch.save()并torch.load()会包装pickle.dump()和pickle.load()为你。

Astate_dict提到的另一个答案只需要多加注释。

state_dict我们在 PyTorch 中有什么？实际上有两个state_dicts。

PyTorch 模型调用torch.nn.Module了model.parameters()获取可学习的参数（w 和 b）。这些可学习的参数一旦随机设置，就会随着我们的学习而随着时间的推移而更新。可学习的参数是第一个state_dict。

第二个state_dict是优化器状态字典。您还记得优化器用于改进我们的可学习参数。但是优化器state_dict是固定的。那里没什么可学的。

因为state_dict对象是 Python 字典，所以它们可以很容易地保存、更新、更改和恢复，从而为 PyTorch 模型和优化器增加了大量的模块化。

让我们创建一个超级简单的模型来解释这一点：

import torch
import torch.optim as optim

model = torch.nn.Linear(5, 2)

# Initialize optimizer
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)

print("Model's state_dict:")
for param_tensor in model.state_dict():
    print(param_tensor, "\t", model.state_dict()[param_tensor].size())

print("Model weight:")    
print(model.weight)

print("Model bias:")    
print(model.bias)

print("---")
print("Optimizer's state_dict:")
for var_name in optimizer.state_dict():
    print(var_name, "\t", optimizer.state_dict()[var_name])

此代码将输出以下内容：

Model's state_dict:
weight      torch.Size([2, 5])
bias      torch.Size([2])
Model weight:
Parameter containing:
tensor([[ 0.1328,  0.1360,  0.1553, -0.1838, -0.0316],
        [ 0.0479,  0.1760,  0.1712,  0.2244,  0.1408]], requires_grad=True)
Model bias:
Parameter containing:
tensor([ 0.4112, -0.0733], requires_grad=True)
---
Optimizer's state_dict:
state      {}
param_groups      [{'lr': 0.001, 'momentum': 0.9, 'dampening': 0, 'weight_decay': 0, 'nesterov': False, 'params': [140695321443856, 140695321443928]}]

请注意，这是一个最小模型。您可以尝试添加顺序堆栈

model = torch.nn.Sequential(
          torch.nn.Linear(D_in, H),
          torch.nn.Conv2d(A, B, C)
          torch.nn.Linear(H, D_out),
        )

请注意，只有具有可学习参数的层（卷积层、线性层等）和注册缓冲区（batchnorm 层）在模型的state_dict.

不可学习的东西属于优化器对象state_dict，它包含有关优化器状态的信息，以及使用的超参数。

故事的其余部分是一样的。在推理阶段（这是我们在训练后使用模型的阶段）进行预测；我们确实根据我们学到的参数进行预测。所以对于推理，我们只需要保存参数model.state_dict()。

torch.save(model.state_dict(), filepath)

并稍后使用 model.load_state_dict(torch.load(filepath)) model.eval()

注意：不要忘记最后一行model.eval()，这在加载模型后至关重要。

也不要试图保存torch.save(model.parameters(), filepath). 这model.parameters()只是生成器对象。

另一方面，torch.save(model, filepath)保存模型对象本身，但请记住模型没有优化器的state_dict. 检查@Jadiel de Armas 的另一个出色答案以保存优化器的状态字典。

score 18 · Accepted Answer

一个常见的 PyTorch 约定是使用 .pt 或 .pth 文件扩展名保存模型。

保存/加载整个模型

节省：

path = "username/directory/lstmmodelgpu.pth"
torch.save(trainer, path)

加载：

（模型类必须在某处定义）

model.load_state_dict(torch.load(PATH))
model.eval()

score 12 · Accepted Answer

如果您想保存模型并希望稍后恢复训练：

单 GPU： 保存：

state = {
        'epoch': epoch,
        'state_dict': model.state_dict(),
        'optimizer': optimizer.state_dict(),
}
savepath='checkpoint.t7'
torch.save(state,savepath)

加载：

checkpoint = torch.load('checkpoint.t7')
model.load_state_dict(checkpoint['state_dict'])
optimizer.load_state_dict(checkpoint['optimizer'])
epoch = checkpoint['epoch']

多个 GPU： 保存

state = {
        'epoch': epoch,
        'state_dict': model.module.state_dict(),
        'optimizer': optimizer.state_dict(),
}
savepath='checkpoint.t7'
torch.save(state,savepath)

加载：

checkpoint = torch.load('checkpoint.t7')
model.load_state_dict(checkpoint['state_dict'])
optimizer.load_state_dict(checkpoint['optimizer'])
epoch = checkpoint['epoch']

#Don't call DataParallel before loading the model otherwise you will get an error

model = nn.DataParallel(model) #ignore the line if you want to load on Single GPU

score 4 · Accepted Answer

本地保存

保存模型的方式取决于将来要如何访问它。如果您可以调用model该类的新实例，那么您需要做的就是保存/加载模型的权重model.state_dict()：

# Save:
torch.save(old_model.state_dict(), PATH)

# Load:
new_model = TheModelClass(*args, **kwargs)
new_model.load_state_dict(torch.load(PATH))

如果由于某种原因不能（或者更喜欢更简单的语法），那么您可以使用以下命令保存整个模型（实际上是对定义模型的文件及其 state_dict 的引用）torch.save()：

# Save:
torch.save(old_model, PATH)

# Load:
new_model = torch.load(PATH)

但是因为这是对定义模型类的文件位置的引用，所以除非这些文件也被移植到相同的目录结构中，否则这段代码是不可移植的。

保存到云端 - TorchHub

如果您希望您的模型是可移植的，您可以轻松地允许它使用torch.hub. 如果您将适当定义的hubconf.py文件添加到 github 存储库，则可以从 PyTorch 中轻松调用它，以使用户能够加载带/不带权重的模型：

hubconf.py( github.com/repo_owner/repo_name )

dependencies = ['torch']
from my_module import mymodel as _mymodel

def mymodel(pretrained=False, **kwargs):
    return _mymodel(pretrained=pretrained, **kwargs)

加载模型：

new_model = torch.hub.load('repo_owner/repo_name', 'mymodel')
new_model_pretrained = torch.hub.load('repo_owner/repo_name', 'mymodel', pretrained=True)

score 1 · Accepted Answer

pip install pytorch-lightning

确保您的父模型使用 pl.LightningModule 而不是 nn.Module

使用 pytorch 闪电保存和加载检查点

import pytorch_lightning as pl

model = MyLightningModule(hparams)
trainer.fit(model)
trainer.save_checkpoint("example.ckpt")
new_model = MyModel.load_from_checkpoint(checkpoint_path="example.ckpt")

score 0 · Accepted Answer

这些天一切都写在官方教程中： https ://pytorch.org/tutorials/beginner/saving_loading_models.html

您有几个关于如何保存和保存什么的选项，所有这些都在该教程中进行了解释。

score 0 · Accepted Answer

0

我总是喜欢使用 Torch7 (.t7) 或 Pickle (.pth, .pt) 来保存 pytorch 模型的权重。

于 2022-01-12T10:30:36.333 回答

python - 在 PyTorch 中保存训练模型的最佳方法是什么？

9 回答 9

保存模型的推荐方法

本地保存

保存到云端 - TorchHub

Related

Reference