python - 如何在pytorch中钳制神经元的输出

Question

我正在使用简单的 nn 线性模型（20,64,64,2）进行深度强化学习。我使用这个模型来近似 PPO 算法的策略梯度。因此，输出层给出 2 个值，即均值和标准差。这些参数在环境中进一步用于采样更多数据。对于环境，参数值应该在阈值之间。mean = [max, min]和std = [max, min]。

在训练时，经过一些迭代，输出层的参数值突然增加，因此环境无法采样更多数据。环境使用模型的输出，我无法改变环境以使其稳定。因此，有什么方法可以限制阈值的参数值或进行钳位。（损失是根据环境采样的数据然后反向传播计算的）

您可以在下面找到该模型的示例代码：

    def forward(self, x):
        # feed forwards to layers
        x = F.relu(self.linear_0(x))
        x = F.relu(self.linear_1(x))
        return self.linear_2(x)

我尝试了以下结构...

    def forward(self, x):
        # feed forwards to layers
        x = F.relu(self.linear_0(x))
        x = F.relu(self.linear_1(x))
        x = self.linear_2(x)
        x[0] = torch.clamp(x[0], min=min, max=max)
        x[1] = torch.clamp(x[1], min=min, max=max)
        return x

但是在反向传播时会出错：

RuntimeError：梯度计算所需的变量之一已被就地操作修改：[torch.DoubleTensor [499, 2]]，即 SelectBackward 的输出 0，处于版本 3；而是预期的版本 2。提示：启用异常检测以查找未能计算其梯度的操作，使用 torch.autograd.set_detect_anomaly(True)。

提前致谢！

python - 如何在pytorch中钳制神经元的输出

0 回答 0

Related

Reference