python - LSTM（Keras）中批量大小、时间步长和误差之间的关系是什么？

Question

让，

Sample Size = 100(X1,X2,...,X100)

Timesteps = 5

Input Feature = 10

误差计算：

当批量大小 = 样本大小时，如何进行误差计算？我的理解：我将插入X1,X2,X3,X4,X5LSTM 并在时间步之后得到一个输出5，比如说Y1。

错误E1 = X6 - Y1。同样我会计算E2,E3,...,E95。

Actual Error = E1+E2+....+E95. 这将用于更新权重。

这是正确的吗？

批处理错误：

基于以上理解。如果batch size = 10. 然后只会E1,E2,E3,E4 and E5用于计算实际误差。这将用于更新权重。

有状态 LSTM 中的批处理：

批次允许模型允许并行性，其中批次中的每个实体计算其误差，然后将所有误差相加。如果 LSTM 是有状态的（前一个序列的隐藏状态用于初始化下一个序列的隐藏状态，这种对 Satetful 的理解正确吗？），LSTM 如何实现批次内的并行性？

参考：

score 0 · Accepted Answer

批量大小对 LSTM 的影响：对于批量大小 1，模型在每个时间步采用 1 个输入。对于批量大小 n，模型在每个时间步接受 n 个输入

图片澄清信用：Deeplearning.ai

问题中提到的错误计算部分：这是批量大小1的错误计算。

批次误差：将批次中每个元素的误差相加得到最终误差

有状态 LSTM 中的批处理：我对并行性的理解是不正确的。并行性是在批处理中完成的，而不是在它们之间完成的。

1 回答 1