我读了很多文章,人们说 BERT 对 NLU 有好处,而 GPT 对 NLG 有好处。但它们在结构上的关键区别在于是否在 self-attention 中添加或不添加掩码,并以不同的方式训练模型。
从下面的代码中,如果我理解正确,我们可以自由选择是否添加注意蒙版。 https://github.com/huggingface/transformers/blob/master/src/transformers/models/bert/modeling_bert.py https://github.com/huggingface/transformers/blob/master/src/transformers/models/gpt2 /modeling_gpt2.py
那么我是否可以得出这样的结论,即“BERT 的预训练参数对 NLU 有好处”和“GPT2 的预训练参数对 NLG 有好处”?或者这两者之间是否有任何其他关键区别使人们得出我在开头提到的这个结论?