0

我在 DeepLearning4j 框架中使用 ParagraphVector 工具。我正在做的是在一组文本文档上训练一个模型,然后计算这些文档之间的相似度。

现在,正如参考页面(http://deeplearning4j.org/word2vec)所说,该工具用于计算相似度的度量是余弦相似度,它应该包含在 0 和 1 之间。但是,对于某些文档对,我得到负分。

谁能告诉这是为什么?

先感谢您。

4

1 回答 1

0

根据定义,余弦相似度可以在 [-1, 1] 内。https://en.wikipedia.org/wiki/Cosine_similarity

所以从技术上讲,仍然可以得到 w2v/d2v 的负值。

但是,通常您不会看到 -1 或什至接近该值的东西。

于 2016-03-15T13:16:37.510 回答