2

我有一个共现对称矩阵(1877 x 1877)。我将列视为特征并计算它们之间的余弦距离。在此之前,我对矩阵进行了缩放(中心为均值,按分量缩放为单位方差)。

from sklearn import preprocessing
from sklearn.metrics import pairwise_distances
X_scaled = preprocessing.scale(mymatrix)
dist = pairwise_distances(X_scaled,metric="cosine")

我的问题:

  1. 我应该在计算余弦距离/sim 之前缩放共现数据吗?下图显示了实际矩阵的直方图。x 轴表示矩阵中的共现值,y 轴表示它们在矩阵中出现的次数。 在此处输入图像描述
  2. 上面的代码返回距离 > 1 和距离 < 0。如何确保余弦距离值在 0 和 1 之间?我应该在dist矩阵上应用min max 缩放器吗?
4

0 回答 0