最近,我开始阅读更多关于 NLP 的内容并关注 Python 教程,以了解有关该主题的更多信息。在遵循其中一个教程时,我观察到他们使用每条推文中的字数稀疏矩阵(使用 CountVectorizer 创建)作为 TfidfTransformer 的输入,TfidfTransformer 处理数据并将其提供给分类器进行训练和预测。
pipeline = Pipeline([
('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', LogisticRegression())
])
由于没有提供任何解释,我无法理解这背后的思考过程……不就是一个普通的词袋吗?这不能通过仅使用其中一个函数来完成,例如,只使用 Tfidf 吗?
任何澄清将不胜感激。