从 apache Mahout 网站https://cwiki.apache.org/MAHOUT/latent-dirichlet-allocation.html我可以看到拟合 LDA 模型的过程并以 P("word" |“主题编号”)。但是,没有关于如何将经过训练的模型应用于测试数据来预测主题分布的信息。还是我们应该编写自己的程序来使用条件概率的输出来查找测试数据集上的主题?
问问题
1390 次
1 回答
0
请查看 2009 年 Wallach 等人的出版物。人。此处标题为“主题模型的评估方法” 。看一下第 4 节,它提到了三种计算 P(z|w) 的方法,一种基于重要性采样,另外两种称为“Chib-style estimator”和“left-to-right estimator”。
Mallet 实现了从左到右的估计方法。
于 2012-12-05T02:26:12.760 回答