特别是,我对 LSTM 层拥有(比如说)50 个单元意味着什么感到困惑。考虑这篇很棒的博客文章中的以下 LSTM 块:
假设我的输入xt
是一个(20,)
向量,隐藏层ht
是一个(50,)
向量。鉴于细胞状态在成为新的隐藏状态之前Ct
只经历了逐点操作(逐点tanh
和*
),我认为Ct.shape = ht.shape = (50,)
. 现在遗忘门查看与隐藏层连接的输入,这将是一个(20+50,) = (70,)
向量,这意味着遗忘门必须有一个形状为 的权重矩阵(50, 70)
,例如dot(W, [xt, ht]).shape = (50,)
。
所以我现在的问题是,我在看一个有 50 个单元的 LSTM 块什么时候Ct.shape = (50,)
?还是我误解了 LSTM 层有 50 个单元的含义?