如果我正在使用使用动量的优化器(例如AdamOptimizer
),并且我有一个图表,它在最后分裂导致我试图同时最小化的两个值,我可以使用compute_gradients
两次尝试最小化每个值。这会产生两组独立的渐变。如果我只是将两个列表组合成一个长列表并使用apply_gradients
在整个列表中,就势头而言会发生什么?同一个变量可以用两个相反的值更新两次。TensorFlow 优化器是否考虑到这一点并将动量置于适当的中间位置?或者优化器是否将两个独立的梯度作为两个独立的梯度更新调用来影响动量(可能会导致问题,因为一个可能会受到青睐,因为它总是被最后调用)?如果是这种情况,我应该如何在应用渐变之前手动组合渐变?
问问题
843 次