嗨,我正在尝试使用 python 词干分析器来词干,我尝试了 Porter 和 Lancaster,但他们有同样的问题。他们不能阻止以“er”或“e”结尾的正确单词。
例如,它们茎
computer --> comput
rotate --> rotat
这是代码的一部分
line=line.lower()
line=re.sub(r'[^a-z0-9 ]',' ',line)
line=line.split()
line=[x for x in line if x not in stops]
line=[ porter.stem(word, 0, len(word)-1) for word in line]
# or 'line=[ st.stem(word) for word in line]'
return line
任何想法来解决这个问题?