2

我正在研究 tf-idf 模型。我对这个模型是如何实现的没有什么困惑。现在,当我尝试打印模型时,我已经构建了模型,它为同一术语提供了不同的值。以下两个术语给出了这些结果:

doc_bow = [(0, 1), (1, 1)]
val1= tf_idf_corpus[doc_bow] 

doc_bow = [(0,1)]
val2=tf_idf_corpus[doc_bow] 

结果如下:

val1= [(0, 0.56486634414605663), (1, 0.82518241210720711)]
val2=[(0, 1.0)]

我只是想知道,为什么术语 0 的 tf-idf 值在 val1 中为 0.5648,在 val2 中为 1.0。

4

1 回答 1

0

该文档可能有助于消除您的困惑:http ://radimrehurek.com/gensim/models/tfidfmodel.html

我只是想知道,为什么术语 0 的 tf-idf 值在 val1 中为 0.5648,在 val2 中为 1.0。

输出向量被归一化为单位(欧几里得)长度。normalize您可以使用构造函数参数将其关闭。

于 2013-12-04T22:09:11.603 回答