Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在阅读BERT 论文,并不清楚变压器编码器和解码器的输入。
对于学习掩码语言模型(完形填空任务),论文说 15% 的标记被掩码,并且网络被训练来预测被掩码的标记。既然是这种情况,那么变压器编码器和解码器的输入是什么?
变压器编码器的输入是这个输入表示吗(见上图)。如果是这样,解码器输入是什么?
此外,如何计算输出损失?它是否仅适用于蒙面位置的 softmax?为此,所有掩码标记都使用相同的线性层?
啊,但是你看,BERT 不包含 Transformer 解码器。它只是编码器部分,顶部添加了一个分类器。
对于掩码词预测,分类器充当某种解码器,试图重建被掩码词的真实身份。Classifying Non-masked 不包括在分类任务中,不会影响损失。
BERT 还接受过预测一对句子是否真的在另一个句子之前的训练。
我不记得这两种损失是如何加权的。
我希望这能画出更清晰的画面。