2

我知道公式tfidf vectorizer

Count of word/Total count * log(Number of documents / no.of documents where word is present)

我看到 scikit learn 中有 tfidf 转换器,我只是想区分它们。我找不到任何有用的东西。

4

3 回答 3

10

TfidfVectorizer用于句子,而 TfidfTransformer用于现有计数矩阵,例如由CountVectorizer返回的

于 2019-02-18T13:12:53.390 回答
3

使用 Tfidftransformer,您将使用 CountVectorizer 计算字数,然后计算 IDF 值,然后才计算 Tf-idf 分数。使用 Tfidfvectorizer,您将一次完成所有三个步骤。

我认为你应该阅读这篇用一个例子总结的文章

于 2019-12-07T19:19:50.303 回答
2

Artem的回答几乎总结了差异。为了让事情更清楚,这里引用了一个示例。

TfidfTransformer可以按如下方式使用:

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer


train_set = ["The sky is blue.", "The sun is bright."] 

vectorizer = CountVectorizer(stop_words='english')
trainVectorizerArray =   vectorizer.fit_transform(article_master['stemmed_content'])

transformer = TfidfTransformer()
res = transformer.fit_transform(trainVectorizerArray)

print ((res.todense()))


## RESULT:  

Fit Vectorizer to train set
[[1 0 1 0]
 [0 1 0 1]]

[[0.70710678 0.         0.70710678 0.        ]
 [0.         0.70710678 0.         0.70710678]]

计数特征的提取、TF-IDF 归一化和逐行欧几里得归一化可以使用TfidfVectorizer在一个操作中完成:

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(stop_words='english')
res1 = tfidf.fit_transform(train_set)
print ((res1.todense()))


## RESULT:  

[[0.70710678 0.         0.70710678 0.        ]
 [0.         0.70710678 0.         0.70710678]]

这两个过程都会产生一个包含相同值的稀疏矩阵。
其他有用的参考资料是tfidfTransformer.fit_transformcountVectoriser_fit_transformtfidfVectoriser

于 2019-10-29T16:45:50.433 回答