从我从网上找到的文档中,我找出了用于确定语料库中术语的术语频率和逆文档频率权重的表达式
tf-idf(wt)= tf * log(|N|/d);
我正在经历 gensim 中提到的 tf-idf 的实现。文档中给出的示例是
>>> doc_bow = [(0, 1), (1, 1)]
>>> print tfidf[doc_bow] # step 2 -- use the model to transform vectors
[(0, 0.70710678), (1, 0.70710678)]
这显然不遵循 Tf-IDF 的标准实现。两种型号有什么区别?
注意:0.70710678 是 2^(-1/2) 的值,通常用于特征值计算。那么特征值是如何进入 TF-IDF 模型的呢?