我的数据已经在一个数据框中,每行一个标记。我想过滤掉包含停用词的行。
数据框如下所示:
docID <- c(1,2,2)
token <- c('the', 'cat', 'sat')
count <- c(10,20,30)
df <- data.frame(docID, token, count)
我尝试了以下方法,但出现错误:
library(tidyverse)
library(tidytext)
library(topicmodels)
library(stringr)
data('stop_words')
clean_df <- df %>%
anti_join(stop_words, by=df$token)
错误:
Error: `by` can't contain join column `the`, `cat`, `sat` which is missing from LHS
我该如何解决这个问题?