我正在使用 R 中的 tidytext 方法从正文中删除停用词。 https://www.tidytextmining.com/tidytext.html
以下示例有效:
library(tidytext)
library(dplyr)
data(stop_words)
str_v <- paste(c("i've been dancing after midnight, i'd know because it's
daylight"))
str_v %>%
as_tibble %>%
unnest_tokens(word, value) %>%
anti_join(stop_words)
当我将此方法应用于我正在使用的数据时,它不会出错,但不会删除停用词。为了匹配停用词,文本结构是否需要发生一些不可见的事情?输出行看起来与停用词相同(降低、压扁等),但它们仍然存在……我正在处理受保护的数据,无法共享源材料。关于这个问题的任何建议或建议都会非常有帮助,谢谢!