Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我知道在为 gensim 训练 lda 模型之后,我们可以通过以下方式获取未见过文档的主题:
lda = LdaModel(corpus, num_topics=10) doc_lda = lda[doc_bow]
但是那些已经用于训练的文档呢?我的意思是有没有办法在语料库中获取用于训练的文档的主题,而不将其视为新文档?
不。
来自单个文档的信息被提炼到模型中,然后被遗忘。不保留每个文档的信息(更一般地说:不保留需要O(#docs)记忆的信息)。
O(#docs)