运行后,nltk.stem.porter.PorterStemmer().stem_word(word)
我得到了许多带有 'ing' 截断或 'y' 与 'i' 交换的单词。例如,“质量”变成“质量”,(甚至更陌生)“价值”变成“价值”?
由于生成的单词不是实际的英文单词,我不确定我打算如何使用它们?我最好的猜测是,我打算将词干放入另一个函数中,该函数将为我提供来自该词干的所有派生/子词(例如 'valu' 将返回['valuing','valued', 'values', ...]
。有这样的函数吗?