pytorch - 什么使 BertGeneration 和/或 RobertaForCausalLM 因果模型？因果注意掩蔽发生在哪里？

Question

我正在尝试使用 RobertaForCausalLM 和/或 BertGeneration 进行因果语言建模/下一个词预测/从左到右的预测。我似乎无法弄清楚因果掩盖发生在哪里？我想用真实标签训练教师强迫，但没有来自未来令牌的信息包含在注意机制中。为此，我认为该模型需要因果注意屏蔽，但我认为它没有应用于任何地方......

如果有人能指出这可能发生在哪里或为什么没有必要，那将很有帮助。

谢谢！

score 1 · Accepted Answer

我找到了。它发生get_extended_attention_mask在建模 utils中。考虑解决这个问题：slight_smile：

pytorch - 什么使 BertGeneration 和/或 RobertaForCausalLM 因果模型？因果注意掩蔽发生在哪里？

1 回答 1

Related

Reference