lda - 是否可以对单个文档使用主题建模

Question

对单个文档使用主题建模是否合理，或者更准确地说，对单个文档使用 LDA-gibbs 方法在数学上是否可行。如果是这样，k 和种子的值应该是多少。此外，k 和种子对于单个文档和大型文档集的作用是什么。

K 和 SEED 是函数 LDA 的变量（在 r studio 中）。如果我在这个问题的任何地方错了，也请告诉我。

为了讲述我的项目，我试图找出可用于表示单个文档内容的主要主题。

我已经尝试过使用 k=4,7,10。我的部分问题也是 k 的值应该更好。

score 0 · Accepted Answer

这真的取决于文件。一份文件可以是一本 700 页的书或一个句子。你的 k 也将取决于文件我认为你的意思是主题的数量？如果您的文档是整个 Wikipedia 语料库，则 1500 个主题可能是合适的，如果您的文档是有关电影的评论列表，那么 20 个主题可能是合适的。优化该数字可以使用肘法检查17完成。

种子可能非常随机，它只是一个离开者，因此可以复制您的结果 - 如果您将其留空，它就会运行。我会说尝试一下并检查您的连贯性，关注您的主题，如果看起来正确，那么您可以确定您可以在一个文档上训练 LDA。单个文档的处理速度应该非常快。

这是python中使用种子参数的示例。我的数据集是 1,048,575 行，注意种子要高得多：

ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=bow_corpus,
   num_topics=20, alpha =.1, id2word=dictionary, iterations = 1000, 
   random_seed = 569356958)

lda - 是否可以对单个文档使用主题建模

1 回答 1

Related

Reference