1

我是 Mahout 的新手,最近一直在将我以前的许多机器学习代码转换为这个框架。在很多地方,我使用向量之间的余弦相似度来进行聚类、分类等。然而,研究 Mahout 的距离方法,却给了我很大的惊喜。在下面的代码片段中,维度和浮点值取自我的一个程序的实际输出(在这里并不重要):

import org.apache.mahout.math.RandomAccessSparseVector;
import org.apache.mahout.common.distance.CosineDistanceMeasure;

public static void main(String[] args) {
    RandomAccessSparseVector u = new RandomAccessSparseVector(373);
    RandomAccessSparseVector v = new RandomAccessSparseVector(373);
    u.set(24, 0.4526985183337534);
    u.set(55, 0.5333219834564495);
    u.set(54, 0.5333219834564495);
    u.set(53, 0.4756042214095471);

    v.set(57, 0.6653016370845252);
    v.set(56, 0.6653016370845252);
    v.set(11, 0.3387439495921685);

    CosineDistanceMeasure cosineDistanceMeasure = new CosineDistanceMeasure();
    System.out.println(cosineDistanceMeasure.distance(u, v));
}

输出是1.0。不应该0.0吗?

将此与 的输出相结合cosineDistanceMeasure.distance(u, u),我意识到我正在寻找的是1 - cosineDistanceMeasure.distance(u, v). 但这种逆转对我来说毫无意义。知道为什么以这种方式实施吗?还是我错过了一些非常明显的东西?

4

1 回答 1

1

当两点“接近”时,它们从原点作为向量形成的角度很小,接近于零。接近 0 的角度的余弦值接近 1,并且余弦值随着角度向 90 度然后向 180 度方向减小。

所以余弦随着距离的增加而减小。这就是为什么两个向量之间夹角的余弦本身不能作为距离度量的原因。制作距离度量的“规范”方法是 1 - 余弦;这是一个适当的指标。

于 2013-03-08T21:54:53.023 回答