tensorflow - BERT 中的屏蔽

Question

在 BERT 的原始论文中说：

请注意，掩蔽策略的目的是减少预训练和微调之间的不匹配，因为在微调阶段不会出现 [MASK] 符号。

让我们考虑一个句子“我是利物浦球迷”，40% 的掩蔽将被转换为“我 [MASK] 一个 [MASK] 球迷”。在预测第一个[MASK]时，是否会被一个短语“I [MASK] a fan”预测，不包括第二个[MASK]或“I [MASK] a [MASK] fan”，由一个完整的句子预测？

而用自己替换 10% 的掩码代币的目的是什么？这是否意味着他们不会被预测？或者我们会在上下文中预测它们（比如通过“我是 [MASK] 粉丝”来预测第一个 [MASK]？

将非常感谢任何帮助！

score 0 · Accepted Answer

如果您清楚地查看论文，并查看 XLNET 上解释 BERT 缺点的论文，这意味着，给定一个句子“I [MASK] a [MASK] fan”，它试图预测 [MASK] ] 使用句子“I [MASK] a [MASK] fan”而不是“I [MASK] a Liverpool fan”来表示。

因此，它仅掩盖了 15% 的令牌。保留 10% 的掩码令牌原样的想法意味着它们不会被预测。

1 回答 1