我试图了解有多少文档包含使用quanteda. 我知道它dfm_weight()是可用的,但我相信“道具”功能着眼于文档中的特征频率,而不是跨文档。
我的目标是避免必须做ifelse声明并将其全部保留在 中quanteda,但我不确定这是否可能。我正在寻找的输出是按年份分组的并排条形图,它具有沿 y 轴的特征和沿 x 的文档中出现的百分比。此处的解释将是“在 2018 年的所有评论中,有 20% 的人提到了 X 一词,而 2019 年这一比例为 24%。”
library(quanteda)
library(reshape2)
library(dplyr)
df$rownum = 1:nrow(df) # unique ID
dfCorp19 = df %>%
corpus(df, text_field = 'WhatPromptedYourSearch', docid_field = 'rownum')
x = dfm(dfCorp19,
remove=c(stopwords(), toRemove),
remove_numbers = TRUE,
remove_punct = TRUE) %>%
textstat_frequency(groups ='year')
x = x %>% group_by(group) %>% mutate(prop = ifelse(group=='2019', docfreq/802, docfreq/930))
x = dcast(x,feature ~ group, value.var='prop')
