据我了解,每个编码器块都从前一个编码器获取输出,并且输出是序列(又名句子)的参与表示(Z)。我的问题是,最后一个编码器块是如何从 Z 产生 K、V 的(用于解码器的编码器-解码注意力 aublayer)
我们只是从最后一个编码器层获取 Wk 和 Wv 吗?
据我了解,每个编码器块都从前一个编码器获取输出,并且输出是序列(又名句子)的参与表示(Z)。我的问题是,最后一个编码器块是如何从 Z 产生 K、V 的(用于解码器的编码器-解码注意力 aublayer)
我们只是从最后一个编码器层获取 Wk 和 Wv 吗?