4

这是原纸的屏幕:纸的屏幕。我理解论文的意思是当dot-product的值很大时,softmax的梯度会变得很小。
但是,我尝试用交叉熵损失计算softmax的梯度,发现softmax的梯度与传递给softmax的值没有直接关系。
即使单个值很大,当其他值很大时,它仍然可以得到很大的梯度。(对不起,我不知道如何在这里提出计算过程)

4

1 回答 1

2

实际上,在一个热编码向量上使用 softmax 的交叉熵梯度只是对应类向量索引处的 grad -log(softmax(x)) = (1 - softmax(x))。(https://eli.thegreenplace.net/2016/the-softmax-function-and-its-derivative/)。如果传递给 softmax 的值很大,softmax 将产生 1,因此产生 0 梯度。

于 2019-02-27T12:55:59.520 回答