0

我正在研究潜在语义分析,我正在尝试从 2 个文档中获取相似性。我在 Python 上运行我的潜在语义分析代码,当我运行它时,我得到:

Here are the singular values
[ 0.7376057   0.4596623   0.25422212]
Here are the first 3 columns of the U matrix
[[ 0.98465137 -0.172792   -0.02458864]
[ 0.15675976  0.81362269  0.55986114]
[ 0.07673365  0.55512255 -0.82822153]]
Here are the first 3 rows of the Vt matrix
[[ 0.08861949  0.02992777  0.36751379  0.9253024 ]
[ 0.78716383  0.34742637  0.43792207 -0.26056147]
[ 0.29462756 -0.93722956  0.17407106 -0.06704194]]

我如何从这些数字中找到相似之处?

4

1 回答 1

-1

https://en.wikipedia.org/wiki/Latent_semantic_analysis很好地解释了 LSI,也是你的问题。

比如说,你想确定文档 i 和 j 之间的相似性。取V^t的第i列(=d_i)和V^t的第j列(=d_j)

取 diag(S)*d_i 和 diag(S) * d_j 的余弦相似度

这越接近+1,它们就越相似

于 2016-11-24T13:00:15.177 回答