3

任何非零都会recurrent_dropout产生 NaN 损失和权重;后者是 0 或 NaN。发生在堆叠的、浅的、stateful, return_sequences= 任何、带有 & w/o Bidirectional()activation='relu', 的情况下loss='binary_crossentropy'。NaN 出现在几批中。

有什么修复吗?帮助表示赞赏。


已尝试故障排除

  • recurrent_dropout=0.2,0.1,0.01,1e-6
  • kernel_constraint=maxnorm(0.5,axis=0)
  • recurrent_constraint=maxnorm(0.5,axis=0)
  • clipnorm=50 (凭经验确定),那达慕优化器
  • activation='tanh'- 无 NaN,重量稳定,最多可测试 10 个批次
  • lr=2e-6,2e-5- 无 NaN,重量稳定,最多可测试 10 个批次
  • lr=5e-5- 没有 NaN,权重稳定,3 批次 - 第 4 批次的 NaN
  • batch_shape=(32,48,16)- 2批次的大损失,第3批次的NaN

注意: ,每批batch_shape=(32,672,16)17 次调用train_on_batch


环境

  • Keras 2.2.4(TensorFlow 后端)、Python 3.7、Spyder 3.3.7(通过 Anaconda)
  • GTX 1070 6GB,i7-7700HQ,12GB RAM,Win-10.0.17134 x64
  • CuDNN 10+,最新的 Nvidia 驱动器

附加信息

模型发散是自发的,即使使用固定种子(Numpy、Random 和 TensorFlow 随机种子)也会发生在不同的训练更新中。此外,当第一次发散时,LSTM 层的权重都是正常的——只是稍后才变为 NaN。

以下是,按顺序:(1)输入LSTM;(2)LSTM输出;(3)Dense(1,'sigmoid')输出——三个是连续的,Dropout(0.5)在每个之间。前面的(1)是Conv1D层。右:LSTM 权重。“之前” = 1 次火车更新之前;"AFTER = 1 次列车更新后

分歧前图片

AT 分歧图片

## LSTM outputs, flattened, stats
(mean,std)        = (inf,nan)
(min,max)         = (0.00e+00,inf)
(abs_min,abs_max) = (0.00e+00,inf)

分歧后图片

## Recurrent Gates Weights:
array([[nan, nan, nan, ..., nan, nan, nan],
       [ 0.,  0., -0., ..., -0.,  0.,  0.],
       [ 0., -0., -0., ..., -0.,  0.,  0.],
       ...,
       [nan, nan, nan, ..., nan, nan, nan],
       [ 0.,  0., -0., ..., -0.,  0., -0.],
       [ 0.,  0., -0., ..., -0.,  0.,  0.]], dtype=float32)
## Dense Sigmoid Outputs:
array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]], dtype=float32)


最小的可重复示例

from keras.layers import Input,Dense,LSTM,Dropout
from keras.models import Model
from keras.optimizers  import Nadam 
from keras.constraints import MaxNorm as maxnorm
import numpy as np
ipt = Input(batch_shape=(32,672,16))
x = LSTM(512, activation='relu', return_sequences=False,
              recurrent_dropout=0.3,
              kernel_constraint   =maxnorm(0.5, axis=0),
              recurrent_constraint=maxnorm(0.5, axis=0))(ipt)
out = Dense(1, activation='sigmoid')(x)

model = Model(ipt,out)
optimizer = Nadam(lr=4e-4, clipnorm=1)
model.compile(optimizer=optimizer,loss='binary_crossentropy')
for train_update,_ in enumerate(range(100)):
    x = np.random.randn(32,672,16)
    y = np.array([1]*5 + [0]*27)
    np.random.shuffle(y)
    loss = model.train_on_batch(x,y)
    print(train_update+1,loss,np.sum(y))

观察:以下加速发散

  • 更高 units(LSTM)
  • 更高的层数(LSTM)
  • 更高 lr <<时没有发散<=1e-4,测试了多达 400 列火车
  • 更少 '1'的标签<<与下面没有分歧y,即使是lr=1e-3; 测试多达 400 辆列车

y = np.random.randint(0,2,32) # makes more '1' labels


更新:在 TF2 中未修复;from tensorflow.keras也可以使用进口来重现。

4

1 回答 1

4

深入研究 LSTM 公式并挖掘源代码,一切都变得一清二楚。

判决recurrent_dropout与此无关;一个东西在没有人预料到的地方被循环。


真正的罪魁祸首activation现在,这个论点'relu'被应用于循环转换- 与几乎所有将其显示为无害的教程相反'tanh'

即,activation不仅用于隐藏到输出的转换 - 源代码;它直接计算循环状态、单元格和隐藏状态:

c = f * c_tm1 + i * self.activation(x_c + K.dot(h_tm1_c, self.recurrent_kernel_c))
h = o * self.activation(c)

解决方案

  • 适用BatchNormalization于 LSTM 的输入,特别是如果前一层的输出是无界的(ReLU、ELU 等)
    • 如果前一层的激活是紧密绑定的(例如 tanh、sigmoid),则在激活之前应用 BN (使用activation=None,然后是 BN,然后是Activation层)
  • 使用activation='selu';更稳定,但仍可能发散
  • 使用较低lr
  • 应用渐变剪裁
  • 使用更少的时间步长

更多答案,对一些剩余的问题:

  • 为什么被recurrent_dropout怀疑?不严谨的测试设置;直到现在我才专注于在没有它的情况下强制发散。然而,它确实有时会加速发散——这可以通过将非 relu 贡献归零来解释,否则会抵消乘法强化。
  • 为什么非零均值输入会加速分歧?加性对称;非零均值分布是不对称的,一个符号占主导地位 - 促进大的预激活,因此大的 ReLU。
  • 为什么在低 lr 的情况下训练可以稳定进行数百次迭代?极端激活通过大误差引起大梯度;对于低 lr,这意味着权重会调整以防止此类激活 - 而高 lr 跳跃太快太快。
  • 为什么堆叠的 LSTM 发散得更快?除了将 ReLU 提供给自己之外,LSTM 还提供下一个 LSTM,然后下一个 LSTM 将 ReLU 的 ReLU 提供给自己 --> 烟花。

2020 年1 月 22 日更新recurrent_dropout实际上可能是一个促成因素,因为它利用了倒置dropout ,在训练期间升级了隐藏的转换,在许多时间步上缓解了不同的行为。Git问题在这里

于 2020-01-09T03:17:54.997 回答