python-2.7 - RNN 的状态归一化

Question

也许一个更好地提出给计算机科学或交叉验证的问题？

我开始在任意长度的序列上使用 LSTM 进行一些工作，我遇到的一个问题是我没有看到解决的问题是，我的网络似乎已经开发了几个线性增长的参数（也许作为时间的度量？）。

一个明显的问题是训练数据以一个长度序列为界，x因此网络会合理地增长这个参数直到 tilmestep x。但在那之后，网络最终将成为 NAN，因为值变得过于极端。

有没有人读过有关随着时间的推移状态稳定正常化的任何内容？

任何建议将不胜感激。

score 0 · Accepted Answer

想法 #1：梯度裁剪通常应用于 RNN。这是一个实现示例：如何在张量流中有效地应用梯度裁剪？

这是批量标准化 LSTM 单元的 Tensorflow 实现：https ://github.com/OlavHN/bnlstm/blob/master/lstm.py

此处的文章解释了此实现：Tensorflow 的批量标准化 LSTM

1 回答 1