0

我想使用 R 中的 textstem 包从单词的所有可能形式中获得引理“潜水”。

但是当我在r中使用textstem包时,基本形式变成了一个很奇怪的结果。

library(textstem)
words<-c("dived", "diving", "dive")

lemmatize_strings(words, dictionary = lexicon::hash_lemmas)

[1] "dive" "dive" "diva"

在这里,我不想将“dive”作为“dive”这个词的结果,而是需要将“dive”这个词词形还原为“dive”,这样它就可以和其他形式的“dived”算作同一个词, “潜水”。所以应该是这样的,如下。

[1] "dive" "dive" "dive"

我找到了这个链接(tm 包中的 stemDocment 不适用于过去时词),但在我的情况下它可能没有用,因为我必须处理超过 80,000 条评论,而且我很可能会遇到不同单词的相同问题.

lemmatize_strings用于我拥有的数据集,但它给出了完全相同的结果(虽然它有点明显)。谁能帮帮我吗?

非常感谢您!

4

0 回答 0