我对 Python 和 NLTK 很陌生,但我有一个问题。我正在写一些东西来从自制的语料库中提取长度超过 7 个字符的单词。但事实证明,它提取了每一个单词……有人知道我做错了什么吗?
loc="C:\Users\Dell\Desktop\CORPUS"
Corpus= CategorizedPlaintextCorpusReader(loc,'(?!\.svn).*\.txt, cat_pattern=r '(Shakespeare|Milton)/.*)
def long_words(corpus)
for cat in corpus.categories():
fileids=corpus.fileids(categories=cat)
words=corpus.words(fileids)
long_tokens=[]
words2=set(words)
if len(words2) >=7:
long_tokens.append(words2)
Print long_tokens
谢谢大家!