r - 使用 R 中的“topicmodels”训练主题模型后的文档主题概率：gamma 还是后验（）？

Question

下面是我使用 gibbs 采样训练 3328 个文本文件后得到的结果。我需要保存一个包含 document_topic 概率的文件。伽玛是文档主题概率吗？但是大多数数字都经过平滑处理，并且在文档主题概率方面信息量不是很大。我应该使用“后验”函数来预测训练数据上新数据的概率吗？

str(TM$Gibbs)
Formal class 'LDA_Gibbs' [package "topicmodels"] with 16 slots
  ..@ seedwords      : NULL
  ..@ z              : int [1:57838] 38 38 38 38 38 38 38 38 38 38 ...
  ..@ alpha          : num 1.11
  ..@ call           : language LDA(x = dtm, k = k, method = "Gibbs", control = list(seed = SEED, burnin = 1000, thin = 100, iter = 1000))
  ..@ Dim            : int [1:2] 3328 10637
  ..@ control        :Formal class 'LDA_Gibbscontrol' [package "topicmodels"] with 14 slots
  .. .. ..@ delta        : num 0.1
  .. .. ..@ iter         : int 100
  .. .. ..@ thin         : int 100
  .. .. ..@ burnin       : int 1000
  .. .. ..@ initialize   : chr "random"
  .. .. ..@ alpha        : num 1.11
  .. .. ..@ seed         : int 2
  .. .. ..@ verbose      : int 0
  .. .. ..@ prefix       : chr "C:\\Users\\Temp\\Rtmp2Du6oL\\file147c58d81cf"
  .. .. ..@ save         : int 0
  .. .. ..@ nstart       : int 1
  .. .. ..@ best         : logi TRUE
  .. .. ..@ keep         : int 0
  .. .. ..@ estimate.beta: logi TRUE
  ..@ k              : int 45
  ..@ terms          : chr [1:10637] "004" "00423n" "00548" "0065" ...
  ..@ documents      : chr [1:3328] "4e7b352b4bd5046c04000000.txt" "4e7b35898d8c37d975000000.txt" "4e7b3623709f036e7a000002.txt" "4e7b37f611fb9c1179000000.txt" ...
  ..@ beta           : num [1:45, 1:10637] -10.1 -10 -10.2 -10.2 -10.2 ...
  ..@ gamma          : num [1:3328, 1:45] 0.0144 0.0458 0.0132 0.0146 0.0159 ...
  ..@ wordassignments:List of 5
  .. ..$ i   : int [1:35242] 1 1 1 1 1 1 1 1 1 1 ...
  .. ..$ j   : int [1:35242] 803 804 1528 1531 1815 2017 3189 4712 6598 6783 ...
  .. ..$ v   : num [1:35242] 38 38 38 38 38 33 38 38 38 22 ...
  .. ..$ nrow: int 3328
  .. ..$ ncol: int 10637
  .. ..- attr(*, "class")= chr "simple_triplet_matrix"
  ..@ loglikelihood  : num -395662
  ..@ iter           : int 100
  ..@ logLiks        : num(0) 
  ..@ n              : int 57838

score 0 · Accepted Answer

我找到新数据主题概率的方法是使用posterior函数。

posterior(object, newdata)

输出是一个包含元素术语和主题的列表。

r - 使用 R 中的“topicmodels”训练主题模型后的文档主题概率：gamma 还是后验（）？

1 回答 1

Related

Reference