2

为了测试目的,我在一个包含 2 个文档(句子)的小型语料库上运行 LDA。以下代码返回给定输入文档根本不合理的主题词和文档主题分布。在 Python 中运行完全相同的结果是合理的。谁知道这里有什么问题?

library(topicmodels)
library(tm)

d1 <- "bank bank bank"
d2 <- "stock stock stock"

corpus <- Corpus(VectorSource(c(d1,d2)))

##fit lda to data
dtm <- DocumentTermMatrix(corpus)
ldafit <- LDA(dtm, k=2, method="Gibbs") 

##get posteriors
topicTerm <- t(posterior(ldafit)$terms)
docTopic <- posterior(ldafit)$topics
topicTerm
docTopic

> topicTerm
              1         2
bank  0.3114525 0.6885475
stock 0.6885475 0.3114525
> docTopic
          1         2
1 0.4963245 0.5036755
2 0.5036755 0.4963245

Python的结果如下:

>>> docTopic
array([[ 0.87100799,  0.12899201],
       [ 0.12916713,  0.87083287]])
>>> fit.print_topic(1)
u'0.821*"bank" + 0.179*"stock"'
>>> fit.print_topic(0)
u'0.824*"stock" + 0.176*"bank"'
4

2 回答 2

2

R 包 topicmodels 的作者 Bettina Grün 指出,这是由于选择了超参数 'alpha'。

Ralpha = 50/k= 25中的 LDA 选择,而 gensim Python 中的 LDA 选择alpha = 1/k = 0.5. 较小的 alpha 值有利于文档主题分布的稀疏解决方案,即文档包含仅几个主题的混合。因此,降低 R 中 LDA 中的 alpha 会产生非常合理的结果:

ldafit <- LDA(dtm, k=2, method="Gibbs", control=list(alpha=0.5)) 

posterior(ldafit)$topics
#    1     2
# 1  0.125 0.875
# 2  0.875 0.125

posterior(ldafit)$terms
#   bank    stock
# 1 0.03125 0.96875
# 2 0.96875 0.03125
于 2017-09-13T22:07:25.840 回答
0

尝试绘制迭代中的困惑并确保它们收敛。初始状态也很重要。(不过,文档大小和样本大小似乎都很小。)

于 2017-09-12T22:55:28.547 回答