我刚读完Transformer论文和BERT论文。但无法弄清楚为什么 Transformer 是单向的,而 BERT 是双向的,正如 BERT 论文中提到的那样。由于他们不使用循环网络,因此解释方向并不是那么简单。任何人都可以提供一些线索吗?谢谢。
问问题
1424 次
1 回答
5
为了澄清,来自 Vaswani 等人的原始 Transformer 模型。是一种编码器-解码器架构。因此,“变压器是单向的”这一说法具有误导性。
实际上,transformer编码器是双向的,这意味着 self-attention 可以同时关注左右两个 token。相比之下,解码器是单向的,因为在一次生成一个令牌时,您不能让解码器关注当前令牌的右侧。Transformer 解码器通过将标记向右屏蔽来约束自注意力。
BERT 使用 Transformer 编码器架构,因此可以左右兼顾,从而实现“双向性”。
从 BERT 论文本身:
我们注意到,在文献中,双向 Transformer 通常被称为“Transformer 编码器”,而仅左上下文版本被称为“Transformer 解码器”,因为它可以用于文本生成。
推荐阅读:这篇文章。
于 2019-03-12T13:26:21.537 回答