在 BERT 的原始论文中说:
请注意,掩蔽策略的目的是减少预训练和微调之间的不匹配,因为在微调阶段不会出现 [MASK] 符号。
让我们考虑一个句子“我是利物浦球迷”,40% 的掩蔽将被转换为“我 [MASK] 一个 [MASK] 球迷”。在预测第一个[MASK]时,是否会被一个短语“I [MASK] a fan”预测,不包括第二个[MASK]或“I [MASK] a [MASK] fan”,由一个完整的句子预测?
而用自己替换 10% 的掩码代币的目的是什么?这是否意味着他们不会被预测?或者我们会在上下文中预测它们(比如通过“我是 [MASK] 粉丝”来预测第一个 [MASK]?
将非常感谢任何帮助!