我在 DeepLearning4j 框架中使用 ParagraphVector 工具。我正在做的是在一组文本文档上训练一个模型,然后计算这些文档之间的相似度。
现在,正如参考页面(http://deeplearning4j.org/word2vec)所说,该工具用于计算相似度的度量是余弦相似度,它应该包含在 0 和 1 之间。但是,对于某些文档对,我得到负分。
谁能告诉这是为什么?
先感谢您。
我在 DeepLearning4j 框架中使用 ParagraphVector 工具。我正在做的是在一组文本文档上训练一个模型,然后计算这些文档之间的相似度。
现在,正如参考页面(http://deeplearning4j.org/word2vec)所说,该工具用于计算相似度的度量是余弦相似度,它应该包含在 0 和 1 之间。但是,对于某些文档对,我得到负分。
谁能告诉这是为什么?
先感谢您。
根据定义,余弦相似度可以在 [-1, 1] 内。https://en.wikipedia.org/wiki/Cosine_similarity
所以从技术上讲,仍然可以得到 w2v/d2v 的负值。
但是,通常您不会看到 -1 或什至接近该值的东西。