我想使用 R 中的 textstem 包从单词的所有可能形式中获得引理“潜水”。
但是当我在r中使用textstem包时,基本形式变成了一个很奇怪的结果。
library(textstem)
words<-c("dived", "diving", "dive")
lemmatize_strings(words, dictionary = lexicon::hash_lemmas)
[1] "dive" "dive" "diva"
在这里,我不想将“dive”作为“dive”这个词的结果,而是需要将“dive”这个词词形还原为“dive”,这样它就可以和其他形式的“dived”算作同一个词, “潜水”。所以应该是这样的,如下。
[1] "dive" "dive" "dive"
我找到了这个链接(tm 包中的 stemDocment 不适用于过去时词),但在我的情况下它可能没有用,因为我必须处理超过 80,000 条评论,而且我很可能会遇到不同单词的相同问题.
我lemmatize_strings
用于我拥有的数据集,但它给出了完全相同的结果(虽然它有点明显)。谁能帮帮我吗?
非常感谢您!