deep-learning - 基于变压器的解码

Question

变压器模型中的解码器可以像编码器一样并行化吗？据我了解，编码器具有序列中的所有标记来计算自注意力分数。但是对于解码器来说，这是不可能的（在训练和测试中），因为自我注意力是根据之前的时间步输出计算的。即使我们考虑使用诸如teacher forcing之类的技术，我们将预期输出与得到的输出连接起来，这仍然具有来自前一个时间步的顺序输入。在这种情况下，除了在捕获长期依赖关系方面的改进之外，在纯粹基于并行化进行比较时，使用转换器解码器是否比使用 lstm 更好？

score 0 · Accepted Answer

您是正确的，LSTM 解码器和 Transformer 解码器一次处理一个令牌，即它们不会在输出令牌上并行化。原始的 Transformer 架构没有并行化解码器；只有在编码器中是并行处理的令牌序列。有关 Transformer 架构和训练/测试过程的详细摘要，您可以查看这篇文章。

deep-learning - 基于变压器的解码

1 回答 1

Related

Reference