4

我们通常将词嵌入之间的相似度与余弦相似度进行比较,但这仅考虑了向量之间的角度,而不是范数。使用 word2vec,向量的范数会随着单词在更多不同的上下文中的使用而降低。因此,停用词接近 0,并且非常独特、高含义的词往往是大向量。BERT 是上下文敏感的,所以这个解释并不完全涵盖 BERT 嵌入。有谁知道向量幅度对 BERT 的意义是什么?

4

1 回答 1

1

我认为 BERT 和其他嵌入(如 GloVE 或 Word2Vec)之间在余弦相似度或向量范数方面没有任何区别。只是 BERT 是依赖于上下文的嵌入,因此为不同的上下文提供了不同的词嵌入。

于 2019-10-15T06:01:30.970 回答