变压器模型中的解码器可以像编码器一样并行化吗?据我了解,编码器具有序列中的所有标记来计算自注意力分数。但是对于解码器来说,这是不可能的(在训练和测试中),因为自我注意力是根据之前的时间步输出计算的。即使我们考虑使用诸如teacher forcing之类的技术,我们将预期输出与得到的输出连接起来,这仍然具有来自前一个时间步的顺序输入。在这种情况下,除了在捕获长期依赖关系方面的改进之外,在纯粹基于并行化进行比较时,使用转换器解码器是否比使用 lstm 更好?
问问题
416 次
1 回答
0
您是正确的,LSTM 解码器和 Transformer 解码器一次处理一个令牌,即它们不会在输出令牌上并行化。原始的 Transformer 架构没有并行化解码器;只有在编码器中是并行处理的令牌序列。有关 Transformer 架构和训练/测试过程的详细摘要,您可以查看这篇文章。
于 2019-08-28T18:08:58.673 回答