我正在尝试正确理解变压器架构。我很难弄清楚,实际上是从编码器堆栈馈送到解码器堆栈的数据类型。
考虑到 Google 的“Attention is all you need”论文(https://arxiv.org/pdf/1706.03762.pdf (pdf))和 Jay Allamar 的博客文章(http://jalammar.github.io/illustrated-变压器/)我得到注意是“在编码器堆栈的所有输出上”执行的(论文)。现在我想知道两件事:1.解码器堆栈是如何初始化的,是否有固定或训练有素的解码器状态 D0 或其他东西,或者它是否也由编码器堆栈的输出初始化。2. 我可以把这个“编码器状态的输出”想象成什么样子?由于这是一个编码器-解码器结构,我希望它是某种上下文向量。在 Jay Allamar 的另一篇博文中(https://jalammar.github.) 看起来它是编码器层的隐藏状态的串联或堆栈。然而,在首先提到的博客文章以及论文中,听起来这些隐藏状态更像是只馈送到后续的编码器层,而不是以任何方式存储。那么解码器实际上在关注什么?