我正在阅读 Levy 等人的论文“Improving Distributional Similarity with Lessons Learned from Word Embeddings”,在讨论他们的超参数时,他们说:
向量归一化 (nrm)如第 2 节所述,所有向量(即 W 的行)都归一化为单位长度(L2 归一化),使点积运算等效于余弦相似度。
然后我回忆起sim2
R 包中向量相似度函数的默认值text2vec
首先是 L2 范数向量:
sim2(x, y = NULL, method = c("cosine", "jaccard"), norm = c("l2", "none"))
所以我想知道,这可能是什么动机,规范化和余弦(无论是在 text2vec 方面还是在一般方面)。我试图阅读 L2 范数,但主要是在使用欧几里得距离之前的规范化背景下出现的。在词向量空间/嵌入的余弦相似度的情况下,我无法(令人惊讶地)找到任何关于 L2 范数是否会被推荐或反对的任何信息。而且我不太具备计算分析差异的数学技能。
所以这是一个问题,意味着在从文本数据中学习的词向量空间的上下文中(可能只是由 tfidf、ppmi 等加权的共现矩阵;或像 GloVe 之类的嵌入),并计算词相似度(目标是当然要使用最能反映现实世界单词相似性的向量空间+度量)。
简而言之,在计算向量/单词之间的余弦相似度之前,是否有任何理由(不)在单词特征矩阵/术语共现矩阵上使用 L2 范数?