我正在尝试从头开始训练 Huggingface 对 GPT2 模型的实现(这意味着我正在使用他们的架构,但没有使用预训练的权重),但我通过查看此处的代码注意到https://github.com/huggingface/transformers/blob /master/src/transformers/modeling_gpt2.py似乎没有因果掩码的实现。
我可以写一个丑陋for loop
的东西并将我的训练序列一次输入一个令牌给网络,这不会是低效的。我还可以逐个标记地切碎我的每个示例,填充它们并像批处理一样喂它,这可能更快,但感觉不太令人满意。
有没有人曾经与拥抱脸的变形金刚合作过?你知道是否有我错过的 casal 掩码的实现,或者我所描述的另一种方法?
PS:是的,我已经阅读了拥抱脸关于从头开始训练的博文,但它大多不完整,并且与训练相关的部分被遗漏了。