我试过 wordnet lemmatizer,但我发现一些常见的词,如“学习”或“等待”没有得到适当的处理。
我错过了什么吗?
默认情况下,WordNetLemmatizer
在 NLTK 中假定单词是 a NOUN
。见http://nltk.org/_modules/nltk/stem/wordnet.html
要正确地对动词进行词形还原,您必须指定pos
(词性)
>>> from nltk.stem.wordnet import WordNetLemmatizer
>>> wnl = WordNetLemmatizer()
>>> wnl.lemmatize('studying','v')
'study'
>>> wnl.lemmatize('studying','n')
'studying'
>>> wnl.lemmatize('studying')
'studying'
>>> wnl.lemmatize('waiting','n')
'waiting'
>>> wnl.lemmatize('waiting','v')
'wait'