3

我正在尝试在 POS 标记中进行变形分析。

当我们通过传递英文单词作为参数来调用它时,是否有任何工具(我可以从 python 或 java 脚本中调用)返回 Root 形式及其后缀。

例如:

如果我给出 input:'liked' ,我想得到 output:like,ed

为了获得给定英文单词的词根形式,我尝试使用 porter stemmer 和雪球词干分析器(在 python 脚本中),但它并不总是给出有效的词根,因为它只是去掉了后缀。

from nltk.stem.porter import *
porter_stemmer = PorterStemmer()
print(porter_stemmer.stem("ladies"))
print(porter_stemmer.stem("went"))

输出

ladi   
went

例如:我输入为“女士”,但它以根形式返回“ladi”,这甚至不是一个英文单词。

有时词干分析器只是按原样返回输入单词。例如,我输入“went”,这些词干分析器将“went”作为根形式返回,而不是“go”。

请建议我可以使用哪个工具来获取根形式和后缀。

4

1 回答 1

4
from nltk.stem.wordnet import WordNetLemmatizer
WNL = WordNetLemmatizer()
WNL.lemmatize('ladies')
WNL.lemmatize('went')

(我试图在这里找到其他要说的内容,但我认为该代码是不言自明的?)

于 2014-09-18T14:10:20.167 回答