python - 使用 pypi 预训练模型与 PyTorch

Question

我有两个设置 - 一个大约需要。运行 10 分钟，另一个在一个小时后仍在运行：

10米：

import pretrainedmodels 

def resnext50_32x4d(pretrained=False):
    pretrained = 'imagenet' if pretrained else None
    model = pretrainedmodels.se_resnext50_32x4d(pretrained=pretrained)
    return nn.Sequential(*list(model.children()))

learn = cnn_learner(data, resnext50_32x4d, pretrained=True, cut=-2, split_on=lambda m: (m[0][3], m[1]),metrics=[accuracy, error_rate])

未完结：

import torchvision.models as models

def get_model(pretrained=True, model_name = 'resnext50_32x4d', **kwargs ):
    arch = models.resnext50_32x4d(pretrained, **kwargs )
    return arch

learn = Learner(data, get_model(), metrics=[accuracy, error_rate])

这都是从其他人的代码中复制和破解的，所以有些部分我不明白。但最令人困惑的是为什么一个会比另一个快得多。我想使用第二个选项，因为它更容易理解，我可以换掉预训练模型来测试不同的模型。

score 1 · Accepted Answer

两种架构都不同。我假设您使用的是pretrained-models.pytorch。

请注意，您在第一个示例中使用SE -ResNeXt，在第二个示例中使用 ResNeXt（来自的标准示例torchvision）。

第一个版本使用更快的块架构（Squeeze 和 Excitation），在此处描述它的研究论文。

除了使用不同的构建块外，我不确定架构和实现之间的确切差异，但您可以print同时建模并检查差异。

最后，这是一篇很好的文章，总结了Squeeze And Excitation是什么。基本上你GlobalAveragePooling在所有通道上做（我会在 pytorchtorch.nn.AdaptiveAvgPoo2d(1)之后flatten），将它推过两个线性层（中间有ReLU激活）sigmoid，以便获得每个通道的权重。最后，您将通道乘以这些通道。

此外，您正在使用将模块转换为torch.nn.Sequential. 您通过复制模块来删除预训练网络的调用可能存在一些逻辑forward，它也可能发挥作用。

python - 使用 pypi 预训练模型与 PyTorch

1 回答 1

Related

Reference