1

我正在尝试使用 nltk 从语料库中提取搭配,然后将它们的出现用作 scikit-learn 分类器的特征。不幸的是,我对 nltk 不是很熟悉,而且我看不到一个简单的方法来做到这一点。我做到了这一点:

  • BigramCollocationFinder使用from corpus提取搭配
  • 对于每个文档,提取所有二元组(使用nltk.bigrams)并检查它们是否是搭配之一
  • TfidfVectorizer使用什么都不做的分析器创建一个
  • 以提取的二元组形式向其提供文档

这对我来说似乎过于复杂了。还有一个问题是,它BigramCollactionFinder有一个window_size跨越单词的二元组参数。标准nltk.bigrams提取不能做到这一点。

克服这个问题的一种方法是为每个文档实例化一个新的 BigramCollocationFinder 并再次提取二元组并将它们与我之前找到的那些进行匹配......但同样,这似乎很复杂。当然,我忽略了一种更简单的方法。

感谢您的建议!

4

1 回答 1

3

larsmans 已经为简单的非搭配特征贡献了一个 NLTK / scikit-learn 特征映射器。这可能会给你一些灵感来解决你自己的问题:

http://nltk.org/_modules/nltk/classify/scikitlearn.html

于 2012-09-11T16:32:00.633 回答