r - 是否可以找到在给定文档中使用 LDAvis 生成的主题的后验概率？怎么样，如果是这样？

Question

从问题中可能会或可能不会很明显，我对 R 很陌生，我可以在这方面提供一些帮助。

在创建主题模型时，我尝试了 LDA 和 LDAvis - 下面 (A) 和 (B) 中的代码。(A) 中的 LDA 允许我找到我的语料库中每个文档中出现的主题的后验概率，我用它来运行来自其他数据集的变量的回归。(B)，使用 LDAvis 的主题生成方法，比通过 (A) 生成“更好”、更连贯的主题，但我无法弄清楚如何找到给定文档中出现的主题的后验概率LDAvis 方法，或者是否将其视为不可能完成的任务。

非常感谢所有建议。

谢谢！

（一个）

set.seed(1)
require(topicmodels)
set.seed(1)
P5LDA4 <- LDA(P592dfm, control=list(seed=1), k = 23)
set.seed(1)
terms(P5LDA4, k =30)

#find posterior probability
postTopics <- data.frame(posterior(P5LDA4)$topics)
postTopics

(乙)

# MCMC and model tuning parameters:
K <- 23
G <- 5000
alpha <- 0.02
eta <- 0.02
# convert to lda format
dfmlda <- convert(newdfm, to = "lda")
# fit the model
library(lda)
set.seed(1)
t1 <- Sys.time()
fit <- lda.collapsed.gibbs.sampler(documents = dfmlda$documents, K = K, 
                               vocab = dfmlda$vocab, 
                               num.iterations = G, alpha = alpha, 
                               eta = eta, initial = NULL, burnin = 0,
                               compute.log.likelihood = TRUE)
t2 <- Sys.time()
t2 - t1
#Time difference of 3.13337 mins
save(fit, file = "./fit.RData")
load("./fit.RData")
library(LDAvis)
set.seed(1)
json <- createJSON(phi = t(apply(t(fit$topics) + eta, 2, function(x) x/sum(x))), 
               theta = t(apply(fit$document_sums + alpha, 2, function(x) x/sum(x))), 
               doc.length = ntoken(newdfm), 
               vocab = features(newdfm), 
               term.frequency = colSums(newdfm))
serVis(json, out.dir = "./visColl", open.browser = TRUE)

score 0 · Accepted Answer

在您的代码 B 中，您在创建 json 时已经计算了后验。

theta：一个 D×K 矩阵是文档主题分布的后验。
phi：一个 K×W 矩阵是主题词分布的后验。

希望有帮助！

r - 是否可以找到在给定文档中使用 LDAvis 生成的主题的后验概率？怎么样，如果是这样？

1 回答 1

Related

Reference