我目前正在尝试使用 Pytorch 实现 Deepmask(链接到 FAIR 的论文),到目前为止,我已经定义了联合损失函数、模型的可学习参数和前向传递。
我在训练阶段工作,正如论文所说,训练必须在两个分支之间以另一种反向传播方式进行,我已经编写了相同的代码。
但是训练存在一些问题,我尝试使用假数据集(随机生成的数据集)训练模型,对于第一个小批量以外的小批量,模型的损失结果是nan。
造成这种nan损失的原因可能是什么?
我目前正在尝试使用 Pytorch 实现 Deepmask(链接到 FAIR 的论文),到目前为止,我已经定义了联合损失函数、模型的可学习参数和前向传递。
我在训练阶段工作,正如论文所说,训练必须在两个分支之间以另一种反向传播方式进行,我已经编写了相同的代码。
但是训练存在一些问题,我尝试使用假数据集(随机生成的数据集)训练模型,对于第一个小批量以外的小批量,模型的损失结果是nan。
造成这种nan损失的原因可能是什么?