我们通常将词嵌入之间的相似度与余弦相似度进行比较,但这仅考虑了向量之间的角度,而不是范数。使用 word2vec,向量的范数会随着单词在更多不同的上下文中的使用而降低。因此,停用词接近 0,并且非常独特、高含义的词往往是大向量。BERT 是上下文敏感的,所以这个解释并不完全涵盖 BERT 嵌入。有谁知道向量幅度对 BERT 的意义是什么?
问问题
869 次
我们通常将词嵌入之间的相似度与余弦相似度进行比较,但这仅考虑了向量之间的角度,而不是范数。使用 word2vec,向量的范数会随着单词在更多不同的上下文中的使用而降低。因此,停用词接近 0,并且非常独特、高含义的词往往是大向量。BERT 是上下文敏感的,所以这个解释并不完全涵盖 BERT 嵌入。有谁知道向量幅度对 BERT 的意义是什么?