我正在使用 TfIdfVectorizer 来计算文本中的 n-gram,但我需要先对其进行词形还原。一种书面形式可以对应不同的引理,所以都应该计算在内。如何在 scikit-learn 上下文中处理它?我是否需要编写分析器并将其传递给 TfIdfVectorizer?它是如何工作的?
问问题
335 次
1 回答
1
有关将lemmatizer 插入;的示例代码,请参阅开发版本的文档。用法类似。CountVectorizer
TfidfVectorizer
(完全披露:该示例是您真实编写的。)
于 2013-05-07T14:06:24.607 回答