1

这个问题可能与哲学有关,而不是与编码有关。nltk 提供了一个标记包,它用标记器标记句子的每个单词,以及一个将单词转换为其基本形式的词干包。我注意到词干分析器经常无法将一些非常规单词转换为其基本形式。例如,“It's”到“It is”,“know”到“know”,“got”到“get”,等等。这有点令人惊讶,因为标注器可以正确地将“'s”标记为正确形式(“VBZ”)的动词,并识别“知道”(“VBD”)和“知道”(“ VB")。既然我们已经知道“知道”是过去时的动词,为什么它 词干分析器很难正确返回其基本形式吗?似乎最好的词干分析器是雪球词干分析器,尽管它的性能并不令人满意。

4

1 回答 1

2

我注意到词干分析器经常无法将一些非常规单词转换为其基本形式。

词干分析器正在做它被设计做的事情:“词干提取通常是指一种粗略的启发式过程,它会切断单词的结尾,以希望在大多数情况下正确地实现这个目标,并且通常包括删除派生词缀。通常是指使用词汇和词法分析正确地做事,通常旨在仅删除屈折词尾并返回单词的基本形式或字典形式,这被称为引理。” (来源

如果您想要语言上合适的基本形式,请改用词形还原器。

于 2013-08-23T10:48:59.127 回答