1

在 BERT 的原始论文中说:

请注意,掩蔽策略的目的是减少预训练和微调之间的不匹配,因为在微调阶段不会出现 [MASK] 符号。

让我们考虑一个句子“我是利物浦球迷”,40% 的掩蔽将被转换为“我 [MASK] 一个 [MASK] 球迷”。在预测第一个[MASK]时,是否会被一个短语“I [MASK] a fan”预测,不包括第二个[MASK]或“I [MASK] a [MASK] fan”,由一个完整的句子预测?

而用自己替换 10% 的掩码代币的目的是什么?这是否意味着他们不会被预测?或者我们会在上下文中预测它们(比如通过“我是 [MASK] 粉丝”来预测第一个 [MASK]?

将非常感谢任何帮助!

4

1 回答 1

0

如果您清楚地查看论文,并查看 XLNET 上解释 BERT 缺点的论文,这意味着,给定一个句子“I [MASK] a [MASK] fan”,它试图预测 [MASK] ] 使用句子“I [MASK] a [MASK] fan”而不是“I [MASK] a Liverpool fan”来表示。

因此,它仅掩盖了 15% 的令牌。保留 10% 的掩码令牌原样的想法意味着它们不会被预测。

于 2019-09-16T09:02:53.557 回答