我试图弄清楚如何反向传播 GRU 循环网络,但我无法准确理解 GRU 架构。
下图显示了具有 3 个神经网络的 GRU 单元,接收连接的先前隐藏状态和输入向量作为其输入。
然而,这张我用于反向传播的图像显示了输入被转发到每个门的 W 和 U 中,添加,然后应用适当的激活函数。
wikipedia 上显示的更新门的等式如下所示作为示例
zt = sigmoid((W(z)x t + U(z)h t-1 ))
有人可以向我解释一下 W 和 U 代表什么吗?
编辑:
在我发现的大多数来源中,W 和 U 通常被称为“权重”,所以我最好的猜测是 W 和 U 代表它们自己的神经网络,但这与我之前找到的图像相矛盾。
如果有人可以举例说明 W 和 U 如何在简单的 GRU 中工作,那将很有帮助。
图片来源: https ://cran.r-project.org/web/packages/rnn/vignettes/GRU_units.html https://towardsdatascience.com/animated-rnn-lstm-and-gru-ef124d06cf45