nlp - 从头开始训练拥抱脸的 GPT2：如何实现因果掩码？

问问题 2020-04-01T10:49:47.123

716 次

我正在尝试从头开始训练 Huggingface 对 GPT2 模型的实现（这意味着我正在使用他们的架构，但没有使用预训练的权重），但我通过查看此处的代码注意到https://github.com/huggingface/transformers/blob /master/src/transformers/modeling_gpt2.py似乎没有因果掩码的实现。

我可以写一个丑陋for loop的东西并将我的训练序列一次输入一个令牌给网络，这不会是低效的。我还可以逐个标记地切碎我的每个示例，填充它们并像批处理一样喂它，这可能更快，但感觉不太令人满意。

有没有人曾经与拥抱脸的变形金刚合作过？你知道是否有我错过的 casal 掩码的实现，或者我所描述的另一种方法？

PS：是的，我已经阅读了拥抱脸关于从头开始训练的博文，但它大多不完整，并且与训练相关的部分被遗漏了。

0 回答 0