7

好的,所以我有点困惑。然而,这应该是一个简单直接的问题。

在针对整个语料库计算文档的 TF-IDF 矩阵后,我得到了与此非常相似的结果:

array([[ 0.85...,  0.  ...,  0.52...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 0.55...,  0.83...,  0.  ...],
       [ 0.63...,  0.  ...,  0.77...]])

如何使用此结果来获取与搜索查询最相似的文档?基本上我正在尝试为维基百科重新创建一个搜索栏。基于搜索查询,我想从 Wikipedia 返回最相关的文章。在这种情况下,有 6 篇文章(行),搜索查询包含 3 个词(列)。

我是将列中的所有结果相加还是将所有行相加?较大的值是最相关的还是最低的值是最相关的?

4

1 回答 1

5

你熟悉余弦相似度吗?对于每篇文章(向量 A),计算其与查询(向量 B)的相似度。然后按降序排列并选择最高的结果。如果你愿意重构,gensim库非常好。

于 2012-08-08T18:21:31.083 回答