我正在处理一些 nlp 任务。我的输入是法语文本,因此只有 Snowball Stemmer 在我的上下文中可用。但是,不幸的是,它一直给我糟糕的词根,因为它甚至不会删除plural "s"
or silent e
。下面是一些例子:
from nltk.stem import SnowballStemmer
SnowballStemmer("french").stem("pommes, noisettes dorées & moelleuses, la boîte de 350g")
Output: 'pommes, noisettes dorées & moelleuses, la boîte de 350g'