1

在 Transformer 模型的当前实现中,在编码和解码功能中,在将位置编码添加到输入之后立即应用 dropout。代码中的相关行

由于保留的特征被重新缩放,这不会影响底层位置编码的结构吗?是否应该在dropout 操作之后添加位置编码以确保正确性?

使用的模型 https://github.com/tensorflow/models/blob/master/official/nlp/transformer

4

0 回答 0