1

我正在使用一个预训练模型,我想添加Elementwise层来产生两层的输出:一层是卷积层1x1x256x256的输出,另一层也是卷积层的输出1x32x256x256。我的问题是:如果我们添加元素层来将两层相乘并发送到下一层,我们应该从头开始训练,因为架构已经修改,还是仍然可以使用pretrained模型?

谢谢

4

1 回答 1

1

确实,进行架构更改会使学习到的功能发生冲突。

但是,没有理由不对变化以下的层使用学习到的权重——这些层不受变化的影响,因此它们可以从初始化中受益。

至于其余的层,我认为经过训练的权重的 init 不应该比随机的差,那么为什么不呢?

不要忘记使用随机权重初始化任何新层(caffe 中的默认值为零 - 这可能会给学习带来麻烦)。

于 2017-11-21T14:17:19.010 回答