在训练时,据我从“Attention is all you need”论文中了解到,在解码器中使用 masked-self-attention 的方式是多次输入输出序列,每次从下一个中移除掩码令牌。
Q1。在推理时,预期的输出序列长度是未知的。您如何决定要添加多少掩码令牌?您是否总是用掩码标记填充输入的最大长度并在预测到序列符号结束时停止?
Q2。GPT 推理目标任务略有不同。将“查询”向量注入模型(例如相似性任务中的 [text1;text2] 和 [text2;text1])。在这种情况下如何使用掩蔽?我希望整个序列将只在一个步骤中注入而没有掩码,但这与掩码的自我注意方法相矛盾。