0

我有一组文档,我正在其中搜索我的关键字。我已经计算了关键字和所有文档的 tf-idf 值。假设,我将我的 tf-idf 值存储在所有文档的数组中,我如何使用它来计算我的余弦相似度?任何形式的代码帮助表示赞赏!

4

1 回答 1

1

您可以将数组视为向量的集合,每个文档都有一个向量,其中元素的数量等于术语的数量。要确定两个文档的相似性,您可以以通常的方式计算对应向量的标量积(对应向量分量的乘积之和),然后将其除以两个向量的范数的乘积。

在计算相似度之前对向量进行归一化是很实用的。在这种情况下,您只需使用文档向量的标量积,因为规范将是一个。

于 2012-04-23T12:31:21.560 回答