我正在尝试使用 nltk 从语料库中提取搭配,然后将它们的出现用作 scikit-learn 分类器的特征。不幸的是,我对 nltk 不是很熟悉,而且我看不到一个简单的方法来做到这一点。我做到了这一点:
BigramCollocationFinder
使用from corpus提取搭配- 对于每个文档,提取所有二元组(使用
nltk.bigrams
)并检查它们是否是搭配之一 TfidfVectorizer
使用什么都不做的分析器创建一个- 以提取的二元组形式向其提供文档
这对我来说似乎过于复杂了。还有一个问题是,它BigramCollactionFinder
有一个window_size
跨越单词的二元组参数。标准nltk.bigrams
提取不能做到这一点。
克服这个问题的一种方法是为每个文档实例化一个新的 BigramCollocationFinder 并再次提取二元组并将它们与我之前找到的那些进行匹配......但同样,这似乎很复杂。当然,我忽略了一种更简单的方法。
感谢您的建议!