我正在使用简单的 nn 线性模型(20,64,64,2)进行深度强化学习。我使用这个模型来近似 PPO 算法的策略梯度。因此,输出层给出 2 个值,即均值和标准差。这些参数在环境中进一步用于采样更多数据。对于环境,参数值应该在阈值之间。mean = [max, min]
和std = [max, min]
。
在训练时,经过一些迭代,输出层的参数值突然增加,因此环境无法采样更多数据。环境使用模型的输出,我无法改变环境以使其稳定。因此,有什么方法可以限制阈值的参数值或进行钳位。(损失是根据环境采样的数据然后反向传播计算的)
您可以在下面找到该模型的示例代码:
def forward(self, x):
# feed forwards to layers
x = F.relu(self.linear_0(x))
x = F.relu(self.linear_1(x))
return self.linear_2(x)
我尝试了以下结构...
def forward(self, x):
# feed forwards to layers
x = F.relu(self.linear_0(x))
x = F.relu(self.linear_1(x))
x = self.linear_2(x)
x[0] = torch.clamp(x[0], min=min, max=max)
x[1] = torch.clamp(x[1], min=min, max=max)
return x
但是在反向传播时会出错:
RuntimeError:梯度计算所需的变量之一已被就地操作修改:[torch.DoubleTensor [499, 2]],即 SelectBackward 的输出 0,处于版本 3;而是预期的版本 2。提示:启用异常检测以查找未能计算其梯度的操作,使用 torch.autograd.set_detect_anomaly(True)。
提前致谢!