使用 Keras + TF 1.14(非急切)时,是否可以逐步训练 LSTM 以提高内存效率?
来自 PyTorch,我可以逐步传递序列,进行反向传播并使用隐藏状态进行下一步,而无需及时停止梯度(只要有足够的内存)。
目前,LSTM 通过加载整个截断的时间序列进行训练,并使用 Keras TimeDistribute 进行处理。
假设网络在 LSTM 之后很深,PyTorch 版本应该需要更少的内存,因为我们只需要为 LSTM 之后的部分存储一个时间步的中间结果。(当使用相同的截断序列长度时)
Keras 如何实现类似的行为?