我正在尝试使用 RobertaForCausalLM 和/或 BertGeneration 进行因果语言建模/下一个词预测/从左到右的预测。我似乎无法弄清楚因果掩盖发生在哪里?我想用真实标签训练教师强迫,但没有来自未来令牌的信息包含在注意机制中。为此,我认为该模型需要因果注意屏蔽,但我认为它没有应用于任何地方......
如果有人能指出这可能发生在哪里或为什么没有必要,那将很有帮助。
谢谢!
我正在尝试使用 RobertaForCausalLM 和/或 BertGeneration 进行因果语言建模/下一个词预测/从左到右的预测。我似乎无法弄清楚因果掩盖发生在哪里?我想用真实标签训练教师强迫,但没有来自未来令牌的信息包含在注意机制中。为此,我认为该模型需要因果注意屏蔽,但我认为它没有应用于任何地方......
如果有人能指出这可能发生在哪里或为什么没有必要,那将很有帮助。
谢谢!
我找到了。它发生get_extended_attention_mask
在建模 utils中。考虑解决这个问题:slight_smile: