4

过去几周我一直在尝试学习 PyMC,我的主要任务是使用它来构建 LDA 主题模型。我最初使用 PyMC2.3 https://stats.stackexchange.com/questions/104771/latent-dirichlet-allocation-in-pymc尝试了这个示例,但是对于一个非常简单的模型,它在一夜之间运行,甚至从未进入采样步骤. 因此,我已切换到 PyMC3。

由于随机变量是分类的,是否存在任何基本限制?有没有人用 PyMC3 成功创建过 LDA 模型?我在Unable to create lambda function in hierarchy pymc3 model 中找到了部分实现,但如果没有 Container,我无法让它工作,而且我认为原作者也无法做到。有谁知道我可以研究的任何资源以弄清楚如何构建它?

4

1 回答 1

0

TL;DR 链接中给出的实现有效,完整的语音语料库测试代码可见:https ://github.com/napsternxg/ipython-notebooks/blob/master/PyMC_LDA.ipynb

我使用 PyMC2 实现了您提到的链接中指定的解决方案,并将其用于 Inaugural Speech 数据集。我对您提到的链接中提供的解决方案的正确性没有信心,但实施工作并给出了一些主题分布。然而,解释该实现更适合那些更好地理解 LDA 的数学定义的人。

于 2015-08-03T16:26:56.777 回答