1

我正在阅读这个问题:

如何理解局部敏感哈希?

但是后来我发现计算余弦相似度的公式如下: Cos(v1, v2) = Cos(theta) = (hamming distance/signature length) * pi = ((h/b) * pi )

这意味着如果向量完全相似,则汉明距离为零,余弦值为 1。但是当向量完全不相似时,汉明距离将等于签名长度,因此我们有 cos( pi) 这将导致 -1。相似度不应该总是在 0 和 1 之间吗?

4

1 回答 1

3

余弦相似度是向量除以幅度的点积,因此角度的余弦完全有可能为负值。例如,如果您有指向相反方向的单位向量,那么您希望该值为 -1。我认为让您感到困惑的是表示的性质,因为另一篇文章正在讨论二维空间中向量之间的角度,而在维数通常远大于 2 的多维空间中创建向量更为常见,并且每个维度的值都是非负的(例如,一个词是否出现在文档中),导致 0 到 1 的范围。

于 2013-06-20T01:55:20.917 回答