neural-network - 变量的backward()方法中的参数retain_graph是什么意思？

Question

我正在阅读神经传输 pytorch 教程retain_variable，并且对（已弃用，现在称为）的使用感到困惑retain_graph。代码示例显示：

class ContentLoss(nn.Module):

    def __init__(self, target, weight):
        super(ContentLoss, self).__init__()
        self.target = target.detach() * weight
        self.weight = weight
        self.criterion = nn.MSELoss()

    def forward(self, input):
        self.loss = self.criterion(input * self.weight, self.target)
        self.output = input
        return self.output

    def backward(self, retain_variables=True):
        #Why is retain_variables True??
        self.loss.backward(retain_variables=retain_variables)
        return self.loss

从文档

retain_graph (bool, optional) -- 如果为 False，用于计算 grad 的图将被释放。请注意，几乎在所有情况下都不需要将此选项设置为 True，并且通常可以以更有效的方式解决。默认为 create_graph 的值。

因此，通过设置retain_graph= True，我们不会释放为向后传递的图形分配的内存。保留这个内存有什么好处，我们为什么需要它？

score 102 · Accepted Answer

@cleros 关于使用retain_graph=True. 本质上，它将保留计算某个变量所需的任何信息，以便我们可以对其进行反向传递。

一个说明性的例子

假设我们有一个如上所示的计算图。变量d和e是输出，并且a是输入。例如，

import torch
from torch.autograd import Variable
a = Variable(torch.rand(1, 4), requires_grad=True)
b = a**2
c = b*2
d = c.mean()
e = c.sum()

当我们这样做时d.backward()，那很好。在这个计算之后，计算的部分图d将默认被释放以节省内存。因此，如果我们这样做e.backward()，则会弹出错误消息。为了做到这一点e.backward()，我们必须将参数设置retain_graph为Truein d.backward()，即

d.backward(retain_graph=True)

只要你retain_graph=True在你的向后方法中使用，你可以随时向后做：

d.backward(retain_graph=True) # fine
e.backward(retain_graph=True) # fine
d.backward() # also fine
e.backward() # error will occur!

更多有用的讨论可以在这里找到。

一个真实的用例

现在，一个真正的用例是多任务学习，你有多个损失，可能在不同的层。假设您有 2 个损失：loss1并且loss2它们位于不同的层中。为了独立地反向支持网络的可学习权重的梯度loss1和wrt。loss2您必须在第一个反向传播损失中使用retain_graph=Truein方法。backward()

# suppose you first back-propagate loss1, then loss2 (you can also do the reverse)
loss1.backward(retain_graph=True)
loss2.backward() # now the graph is freed, and next process of batch gradient descent is ready
optimizer.step() # update the network parameters

score 22 · Accepted Answer

当您有多个网络输出时，这是一项非常有用的功能。这是一个完全虚构的示例：假设您想要构建一些随机卷积网络，您可以提出两个问题：输入图像是否包含猫，图像是否包含汽车？

这样做的一种方法是有一个共享卷积层的网络，但后面有两个并行分类层（请原谅我糟糕的 ASCII 图，但这应该是三个卷积层，然后是三个全连接层，一个用于猫一个用于汽车）：

                    -- FC - FC - FC - cat?
Conv - Conv - Conv -|
                    -- FC - FC - FC - car?

给定一张我们想要同时运行两个分支的图片，在训练网络时，我们可以通过多种方式进行。首先（这可能是这里最好的事情，说明这个例子有多糟糕），我们简单地计算两个评估的损失并将损失相加，然后反向传播。

但是，还有另一种情况 - 我们希望按顺序执行此操作。首先我们想通过一个分支进行反向传播，然后通过另一个分支（我之前有过这个用例，所以它没有完全组成）。在这种情况下，运行.backward()在一个图上也会破坏卷积层中的任何梯度信息，并且第二个分支的卷积计算（因为这些是唯一与另一个分支共享的）将不再包含图！这意味着，当我们尝试通过第二个分支进行反向传播时，Pytorch 将抛出错误，因为它找不到将输入连接到输出的图！在这些情况下，我们可以通过简单地保留第一次反向传递的图来解决问题。然后该图将不会被消耗，而只会被不需要保留它的第一个反向传递消耗。

编辑：如果您在所有向后传递中保留图形，则永远不会释放附加到输出变量的隐式图形定义。这里也可能有一个用例，但我想不出一个。所以一般来说，你应该确保最后一次反向传递通过不保留图形信息来释放内存。

至于多次向后传递会发生什么：正如您所猜测的，pytorch 通过就地添加梯度（到变量/参数.grad属性）来累积梯度。这可能非常有用，因为这意味着循环一个批次并一次处理一次，最后累积梯度，将执行与执行完整批量更新相同的优化步骤（仅将所有梯度总结为好）。虽然完全批处理更新可以更多地并行化，因此通常更可取，但在某些情况下，批处理计算要么非常、非常难以实现，要么根本不可能。然而，使用这种积累，我们仍然可以依赖批处理带来的一些很好的稳定特性。（如果不是性能增益）

neural-network - 变量的backward()方法中的参数retain_graph是什么意思？

2 回答 2

一个说明性的例子

一个真实的用例

Related

Reference