0

我正在使用 TfIdfVectorizer 来计算文本中的 n-gram,但我需要先对其进行词形还原。一种书面形式可以对应不同的引理,所以都应该计算在内。如何在 scikit-learn 上下文中处理它?我是否需要编写分析器并将其传递给 TfIdfVectorizer?它是如何工作的?

4

1 回答 1

1

有关将lemmatizer 插入;的示例代码,请参阅开发版本的文档。用法类似。CountVectorizerTfidfVectorizer

(完全披露:该示例是您真实编写的。)

于 2013-05-07T14:06:24.607 回答