python - GPT-2 语言模型：将解码器-转换器输出与令牌嵌入或另一个权重矩阵相乘

Question

我正在阅读 GPT2 语言模型的代码。隐藏状态到词汇表概率分布的转换在以下行中完成：

lm_logits = self.lm_head(hidden_states)

这里，

self.lm_head = nn.Linear(config.n_embd, config.vocab_size, bias=False)

然而，在原始论文中，他们建议将隐藏状态与令牌嵌入矩阵相乘，而拥抱脸的实现则使用另一个矩阵。

这有什么好处吗？我错过了什么吗？

score 0 · Accepted Answer

0

于 2020-02-13T17:13:30.467 回答

1 回答 1