python - BERT 中的变压器编码器和解码器的输入是什么？

Question

我正在阅读BERT 论文，并不清楚变压器编码器和解码器的输入。

对于学习掩码语言模型（完形填空任务），论文说 15% 的标记被掩码，并且网络被训练来预测被掩码的标记。既然是这种情况，那么变压器编码器和解码器的输入是什么？

变压器编码器的输入是这个输入表示吗（见上图）。如果是这样，解码器输入是什么？

此外，如何计算输出损失？它是否仅适用于蒙面位置的 softmax？为此，所有掩码标记都使用相同的线性层？

score 5 · Accepted Answer

啊，但是你看，BERT 不包含 Transformer 解码器。它只是编码器部分，顶部添加了一个分类器。

对于掩码词预测，分类器充当某种解码器，试图重建被掩码词的真实身份。Classifying Non-masked 不包括在分类任务中，不会影响损失。

BERT 还接受过预测一对句子是否真的在另一个句子之前的训练。

我不记得这两种损失是如何加权的。

我希望这能画出更清晰的画面。

1 回答 1