deep-learning - Transformer - Attention is all you need - 编码器解码器交叉注意力

Question

据我了解，每个编码器块都从前一个编码器获取输出，并且输出是序列（又名句子）的参与表示（Z）。我的问题是，最后一个编码器块是如何从 Z 产生 K、V 的（用于解码器的编码器-解码注意力 aublayer）

我们只是从最后一个编码器层获取 Wk 和 Wv 吗？

score 0 · Accepted Answer

我认为对于解码器的所有第一个（非屏蔽）多头注意力层，$K = V = Z$。但在计算该子层的注意力之前，$K$ 和 $V$ 被投影到具有单独训练参数矩阵 $W_i^K$ 和 $W_i^V$ 的不同空间中。

1 回答 1