好的,所以我有点困惑。然而,这应该是一个简单直接的问题。
在针对整个语料库计算文档的 TF-IDF 矩阵后,我得到了与此非常相似的结果:
array([[ 0.85..., 0. ..., 0.52...],
[ 1. ..., 0. ..., 0. ...],
[ 1. ..., 0. ..., 0. ...],
[ 1. ..., 0. ..., 0. ...],
[ 0.55..., 0.83..., 0. ...],
[ 0.63..., 0. ..., 0.77...]])
如何使用此结果来获取与搜索查询最相似的文档?基本上我正在尝试为维基百科重新创建一个搜索栏。基于搜索查询,我想从 Wikipedia 返回最相关的文章。在这种情况下,有 6 篇文章(行),搜索查询包含 3 个词(列)。
我是将列中的所有结果相加还是将所有行相加?较大的值是最相关的还是最低的值是最相关的?