我正在尝试制作一个计数器,它使用 POS trigrams 列表来检查大量 trigrams 并找到它们的频率。到目前为止,我的代码如下:
from nltk import trigrams
from nltk.tokenize import wordpunct_tokenize
from nltk import bigrams
from collections import Counter
import nltk
text= ["This is an example sentence."]
trigram_top= ['PRP', 'MD', 'VB']
for words in text:
tokens = wordpunct_tokenize (words)
tags = nltk.pos_tag (tokens)
trigram_list=trigrams(tags)
list_tri=Counter (t for t in trigram_list if t in trigram_top)
print list_tri
我得到一个空柜台回来。我该如何修复这个?在较早的版本中,我确实取回了数据,但它一直在迭代计数(在实际程序中,文本是不同文件的集合)。有人有想法吗?