4

据我了解,每个编码器块都从前一个编码器获取输出,并且输出是序列(又名句子)的参与表示(Z)。我的问题是,最后一个编码器块是如何从 Z 产生 K、V 的(用于解码器的编码器-解码注意力 aublayer)

我们只是从最后一个编码器层获取 Wk 和 Wv 吗?

http://jalammar.github.io/illustrated-transformer/

4

1 回答 1

0

我认为对于解码器的所有第一个(非屏蔽)多头注意力层,$K = V = Z$。但在计算该子层的注意力之前,$K$ 和 $V$ 被投影到具有单独训练参数矩阵 $W_i^K$ 和 $W_i^V$ 的不同空间中。

于 2020-12-21T03:52:37.783 回答