我正在尝试从一组帖子中获取最常见的 POS 标签列表。我写了以下内容:
text2=corpus
text4=nltk.word_tokenize(text2)
tags=nltk.pos_tag(text4)
for a,b in tags:
counter2={}
l=wordpunct_tokenize(b)
for i in l: counter2[i] = counter2.get (i,0)+1
list5=sorted([(freq,word) for word, freq in counter.items()], reverse=True)[:3]
print list5
例如,假定的结果是
NN, JJ, PRP...
但是我得到了这个废话:
[(539, ','), (476, '.'), (385, '?')]
里面没有一个语法标签。
虽然 b 看起来像:
CC
WP
PRP
VBD
NNP
NNP
PRP
VBD
VBG
TO
VB
PRP$
NN
有谁知道我做错了什么?