0

我不想将 topic_word_prior 设置为参数,而是想根据单词的预定义分布来初始化主题。我将如何在 sklearn 的实现中设置这个初始主题分布?如果不可能,是否有更好的实现需要考虑?

4

1 回答 1

1

如果您在预训练模型中有预定义的单词分布,则可以将 bow_corpus 作为函数通过该分布。Gensims LDA 和 LDAMallet 都可以训练一次,然后你可以通过一个新的数据集进行分配而不改变主题。

脚步:

  1. 导入您的数据
  2. 清理数据:消除标点符号、数字、词形还原、删除停用词和词干
  3. 创建字典

    dictionary = gensim.corpora.Dictionary(processed_docs[:])
    dictionary.filter_extremes(no_below=15, no_above=0.5, keep_n=100000)
    
  4. 定义一个弓语料库

    bow_corpus = [dictionary.doc2bow(doc) for doc in processed_docs]
    
  5. 训练你的模型——如果它已经训练过就跳过

    ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, 
                corpus=bow_corpus, num_topics=15, id2word=dictionary)
    
  6. 导入新数据并按照步骤 1-4

  7. 像这样通过模型传递新数据:

      ldamallet[bow_corpus_new[:len(bow_corpus_new)]]
    
  8. 您的新数据现在已分配,您可以将其放入 CSV

于 2019-04-23T23:35:18.703 回答