我正在尝试使用gensim's lda
模型。如果我用给定的语料库创建 lda 模型,然后我想用一个新的语料库更新它,其中包含在第一个语料库中看不到的单词,我该怎么做?当我尝试调用lda_model.update(new_corpus)
时,我收到以下错误:
/Library/Python/2.7/site-packages/gensim/models/ldamodel.pyc in inference(self, chunk, collect_sstats)
361 Elogthetad = Elogtheta[d, :]
362 expElogthetad = expElogtheta[d, :]
-->363 expElogbetad = self.expElogbeta[:, ids]
364
365 # The optimal phi_{dwk} is proportional to expElogthetad_k * expElogbetad_w.
IndexError: index 57 is out of bounds for axis 1 with size 57
我使用仅包含 57 个单词的语料库初始化 lda_model,这就是我们看到大小57
限制的原因。然后我想用更多单词的语料库对其进行更新,但失败了。
我该如何解决这个问题?我希望能够用带有新词的新语料库更新我的 lda 模型,这可能吗?