这个问题可能与哲学有关,而不是与编码有关。nltk 提供了一个标记包,它用标记器标记句子的每个单词,以及一个将单词转换为其基本形式的词干包。我注意到词干分析器经常无法将一些非常规单词转换为其基本形式。例如,“It's”到“It is”,“know”到“know”,“got”到“get”,等等。这有点令人惊讶,因为标注器可以正确地将“'s”标记为正确形式(“VBZ”)的动词,并识别“知道”(“VBD”)和“知道”(“ VB")。既然我们已经知道“知道”是过去时的动词,为什么它 词干分析器很难正确返回其基本形式吗?似乎最好的词干分析器是雪球词干分析器,尽管它的性能并不令人满意。
问问题
248 次