我必须编写一个脚本,以频率降序为我提供所有内容词。我需要 10 个最常见的实词,因此我不仅需要列出我的语料库中 10 个最常见的词,还需要过滤掉任何实词(和,或,任何标点符号......)。到目前为止我所拥有的是以下
fileids=corpus.fileids ()
text=corpus.words(fileids)
wlist=[]
ftable=nltk.FreqDist (text)
wlist.append(ftable.keys () )
这给了我一个按频率降序排列的非常简洁的所有单词列表,但是我如何过滤掉功能词呢?
谢谢你。