nlp - 在 scikit-learn 中计算 n-gram 时处理同形异义词

翻译自：https://stackoverflow.com/questions/16416710 2013-05-07T10:25:54.383

335 次

0

我正在使用 TfIdfVectorizer 来计算文本中的 n-gram，但我需要先对其进行词形还原。一种书面形式可以对应不同的引理，所以都应该计算在内。如何在 scikit-learn 上下文中处理它？我是否需要编写分析器并将其传递给 TfIdfVectorizer？它是如何工作的？

1 回答 1

1

有关将lemmatizer 插入;的示例代码，请参阅开发版本的文档。用法类似。CountVectorizerTfidfVectorizer

（完全披露：该示例是您真实编写的。）

于 2013-05-07T14:06:24.607 回答