我正在尝试在 POS 标记中进行变形分析。
当我们通过传递英文单词作为参数来调用它时,是否有任何工具(我可以从 python 或 java 脚本中调用)返回 Root 形式及其后缀。
例如:
如果我给出 input:'liked' ,我想得到 output:like,ed
为了获得给定英文单词的词根形式,我尝试使用 porter stemmer 和雪球词干分析器(在 python 脚本中),但它并不总是给出有效的词根,因为它只是去掉了后缀。
from nltk.stem.porter import *
porter_stemmer = PorterStemmer()
print(porter_stemmer.stem("ladies"))
print(porter_stemmer.stem("went"))
输出
ladi
went
例如:我输入为“女士”,但它以根形式返回“ladi”,这甚至不是一个英文单词。
有时词干分析器只是按原样返回输入单词。例如,我输入“went”,这些词干分析器将“went”作为根形式返回,而不是“go”。
请建议我可以使用哪个工具来获取根形式和后缀。