也许一个更好地提出给计算机科学或交叉验证的问题?
我开始在任意长度的序列上使用 LSTM 进行一些工作,我遇到的一个问题是我没有看到解决的问题是,我的网络似乎已经开发了几个线性增长的参数(也许作为时间的度量?)。
一个明显的问题是训练数据以一个长度序列为界,x
因此网络会合理地增长这个参数直到 tilmestep x
。但在那之后,网络最终将成为 NAN,因为值变得过于极端。
有没有人读过有关随着时间的推移状态稳定正常化的任何内容?
任何建议将不胜感激。
也许一个更好地提出给计算机科学或交叉验证的问题?
我开始在任意长度的序列上使用 LSTM 进行一些工作,我遇到的一个问题是我没有看到解决的问题是,我的网络似乎已经开发了几个线性增长的参数(也许作为时间的度量?)。
一个明显的问题是训练数据以一个长度序列为界,x
因此网络会合理地增长这个参数直到 tilmestep x
。但在那之后,网络最终将成为 NAN,因为值变得过于极端。
有没有人读过有关随着时间的推移状态稳定正常化的任何内容?
任何建议将不胜感激。
想法 #1:梯度裁剪通常应用于 RNN。这是一个实现示例:如何在张量流中有效地应用梯度裁剪?
想法#2:使用循环批标准化(arXiv)(批标准化)
这是批量标准化 LSTM 单元的 Tensorflow 实现:https ://github.com/OlavHN/bnlstm/blob/master/lstm.py
此处的文章解释了此实现:Tensorflow 的批量标准化 LSTM