python - 带有 Keras 的 GradientTape 返回 0

Question

我尝试使用GradientTapeKeras 模型（简化），如下所示：

import tensorflow as tf
tf.enable_eager_execution()

input_ = tf.keras.layers.Input(shape=(28, 28))
flat = tf.keras.layers.Flatten()(input_)
output = tf.keras.layers.Dense(10, activation='softmax')(flat)
model = tf.keras.Model(input_, output)
model.compile(loss='categorical_crossentropy', optimizer='sgd')

import numpy as np
inp = tf.Variable(np.random.random((1,28,28)), dtype=tf.float32, name='input')
target = tf.constant([[1,0,0,0,0,0,0,0,0,0]], dtype=tf.float32)
with tf.GradientTape(persistent=True) as g:
    g.watch(inp)
    result = model(inp, training=False)

print(tf.reduce_max(tf.abs(g.gradient(result, inp))))

但是对于的一些随机值inp，梯度处处为零，而对于其余的，梯度幅度非常小（<1e-7）。

我也用 MNIST 训练的 3 层 MLP 进行了尝试，结果是一样的，但是用没有激活的 1 层线性模型进行尝试。

这里发生了什么？

score 4 · Accepted Answer

您正在计算 softmax 输出层的梯度——因为 softmax 总是总和为 1，所以梯度（在多输入的情况下，在维度 AFAIK 上求和/平均）必须为 0——整体层的输出不能改变。我想，你得到的小值 > 0 的情况是数字打嗝。
当您删除激活函数时，此限制不再成立，并且激活可能会变得更大（意味着幅度 > 0 的梯度）。

您是否尝试使用梯度下降来构造导致某个类的概率非常大的输入（如果不是，请忽略这个......）？@jdehesa 已经包含了一种通过损失函数执行此操作的方法。请注意，您也可以通过 softmax 执行此操作，如下所示：

import tensorflow as tf
tf.enable_eager_execution()

input_ = tf.keras.layers.Input(shape=(28, 28))
flat = tf.keras.layers.Flatten()(input_)
output = tf.keras.layers.Dense(10, activation='softmax')(flat)
model = tf.keras.Model(input_, output)
model.compile(loss='categorical_crossentropy', optimizer='sgd')

import numpy as np
inp = tf.Variable(np.random.random((1,28,28)), dtype=tf.float32, name='input')   
with tf.GradientTape(persistent=True) as g:
    g.watch(inp)
    result = model(inp, training=False)[:,0]

print(tf.reduce_max(tf.abs(g.gradient(result, inp))))

请注意，我只抓取第 0 列中的结果，对应于第一类（我删除了target，因为它没有被使用）。这将只计算这个类的 softmax 值的梯度，这是有意义的。

一些警告：

在渐变磁带上下文管理器中进行索引很重要！如果你在外面做（例如在你打电话的那一行g.gradient，这将不起作用（没有渐变）
您也可以改用logits（pre-softmax 值）的梯度。这是不同的，因为 softmax 概率可以通过降低其他类的可能性来增加，而 logits 只能通过增加相关类的“分数”来增加。

score 2 · Accepted Answer

根据模型的输出计算梯度通常不是很有意义，一般来说，你根据损失计算梯度，这就是告诉模型变量应该去哪里达到你的目标。在这种情况下，您将优化输入而不是模型参数，但它是相同的。

import tensorflow as tf
import numpy as np
tf.enable_eager_execution()  # Not necessary in TF 2.x

tf.random.set_random_seed(0)  # tf.random.set_seed in TF 2.x
np.random.seed(0)
input_ = tf.keras.layers.Input(shape=(28, 28))
flat = tf.keras.layers.Flatten()(input_)
output = tf.keras.layers.Dense(10, activation='softmax')(flat)
model = tf.keras.Model(input_, output)
model.compile(loss='categorical_crossentropy', optimizer='sgd')

inp = tf.Variable(np.random.random((1, 28, 28)), dtype=tf.float32, name='input')
target = tf.constant([[1, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=tf.float32)
with tf.GradientTape(persistent=True) as g:
    g.watch(inp)
    result = model(inp, training=False)
    # Get the loss for the example
    loss = tf.keras.losses.categorical_crossentropy(target, result)

print(tf.reduce_max(tf.abs(g.gradient(loss, inp))))
# tf.Tensor(0.118953675, shape=(), dtype=float32)

python - 带有 Keras 的 GradientTape 返回 0

2 回答 2

Related

Reference