我正在使用潜在狄利克雷分配与来自六个不同来源的新闻数据语料库。我对主题的演变、出现很感兴趣,并想比较这些来源随着时间的推移是如何相似和不同的。我知道有许多修改过的 LDA 算法,例如 Author-Topic 模型、Topics Over Time 等等。
我的问题是这些替代模型规范中很少以任何标准格式实现。一些在 Java 中可用,但大多数仅作为会议论文存在。自己实现其中一些算法的最佳方法是什么?我对 R 和 jags 相当精通,并且只要给予足够长的时间,我就会在 Python 中跌跌撞撞。我愿意编写代码,但我真的不知道从哪里开始,也不知道 C 或 Java。我可以仅使用手稿中的公式在 JAGS 或 Python 中构建模型吗?如果是这样,有人可以指出我这样做的一个例子吗?谢谢。