我的问题与 R 中的结构主题建模有关,特别是与 Roberts 等人开发的 stm 包有关。(https://cran.r-project.org/web/packages/stm/vignettes/stmVignette.pdf)。
我实施了一个结构化主题模型,以调查女性和男性描述某些主题的词汇量是否存在统计学上的显着差异。因此,我的问题与讨论主题时使用的词率有关,小插图的作者将此称为主题内容分析,请参见第 19 页。
代码的实现是成功的,我设法创建了一个类似于 Vignette 图 8 中所示的图表。
我现在的问题是,我怎么知道在我的案例中女性和男性描述主题的词汇差异是否具有统计学意义?
有没有办法在一个图表中为我的所有主题绘制这个?
谢谢!
我的代码:
估计主题模型
stmContent2 <- stm(out$documents,
out$vocab,
K = 80,
prevalence =~ gender,
content =~ gender,
max.em.its = 75,
data = out$meta,
init.type = "Spectral",
seed = 8458302)
plot(stmContent2, type = "perspectives", topics = 11)