这个问题可能与R 或 python 中的 Lemmatizer (am, are, is -> be?)重复,但我再次添加它,因为前一个问题已关闭,说它太宽泛,唯一的答案不是高效(因为它为此访问了一个外部网站,这太慢了,因为我有非常大的语料库来查找引理)。所以这个问题的一部分将类似于上面提到的问题。
根据维基百科,词形还原定义为:
语言学中的词形还原(或词形还原)是将单词的不同变形形式组合在一起的过程,以便可以将它们作为单个项目进行分析。
一个简单的谷歌搜索 R 中的 lemmatization只会指向 R 的包wordnet
。当我尝试这个包时,期望c("run", "ran", "running")
输入到 lemmatization 函数的字符向量会导致c("run", "run", "run")
,我看到这个包只提供类似于grepl
通过各种过滤器的功能的功能名字和字典。
包中的示例代码wordnet
,它最多提供 5 个以“car”开头的单词,因为过滤器名称说明了这一点:
filter <- getTermFilter("StartsWithFilter", "car", TRUE)
terms <- getIndexTerms("NOUN", 5, filter)
sapply(terms, getLemma)
以上不是我正在寻找的词形还原。我正在寻找的是,使用R
我想找到单词的真正根源:(例如 from c("run", "ran", "running")
to c("run", "run", "run")
)。