基本上我有我的词袋:
source <- VectorSource(text)
corpus <- Corpus(source)
corpus <- tm_map(corpus, content_transformer(tolower))
dtm <- DocumentTermMatrix(cleanset)
等等等等
我有一个数据框,由我从 SQLite DB 调用的两列组成或仅包含两列。第 1 列是数百个单词的列表,第 2 列是每个单词对应的词性代码。
我正在尝试将我的 dtm 中的每个令牌与数据帧第 1 列中的相同术语匹配,以便每个令牌都可以匹配其相应的 POS 代码。本质上,数据框就像一个字典,我想将我的 dtm 中的每个标记与其定义相匹配。
我尝试了一堆 GREP 函数来做到这一点,但无济于事。有人对解决此问题的最佳方法有想法吗?
谢谢!