machine-learning - DeepLearning4J - ParagraphVectors：为什么相似度为负？

Question

我在 DeepLearning4j 框架中使用 ParagraphVector 工具。我正在做的是在一组文本文档上训练一个模型，然后计算这些文档之间的相似度。

现在，正如参考页面（http://deeplearning4j.org/word2vec）所说，该工具用于计算相似度的度量是余弦相似度，它应该包含在 0 和 1 之间。但是，对于某些文档对，我得到负分。

谁能告诉这是为什么？

先感谢您。

score 0 · Accepted Answer

根据定义，余弦相似度可以在 [-1, 1] 内。https://en.wikipedia.org/wiki/Cosine_similarity

所以从技术上讲，仍然可以得到 w2v/d2v 的负值。

但是，通常您不会看到 -1 或什至接近该值的东西。

1 回答 1