问题标签 [lda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3507 浏览

machine-learning - 标记的 LDA 使用情况

我正在做一个需要应用主题模型 LDA 的项目。因为我的每个文档都很短,所以我必须使用 Labeled LDA。我在这方面的知识不多,我需要做的就是将 LLDA 应用于我的数据。

在网上搜索后,我在Stanford TMT上找到了一个 LLDA 实现。我从训练带标签的 LDA 模型一节中了解到:我应该在训练之前标记每个输入文档。我是不是误会了什么?

如果我的理解是正确的,这将涉及太多的标签文件工作。相反,我可以提供单独的主题列表,并训练没有标签的文档吗?

0 投票
0 回答
176 浏览

sparse-matrix - LingPipe LDA 矩阵表示

我正在尝试从推文列表中提取可能的主题,LingPipe LDA 似乎很容易理解,并且带有代码示例。

我的挑战是使用推文数据生成矩阵表示。例如,

static String[] WORDS = new String[] { "river", "stream", "bank", "money", "loan" };

静态最终 int[][] DOC_WORDS = new int[][] {

}

上述矩阵末尾的零应该表示在内容中找不到 WORDS 数组中的任何单词。然而,在这个表示中,假设是零索引或者找到了单词“river”。

由于推文很短,我不确定如何表示矩阵,以便它也可以显示单词的“不存在”。

任何其他方法的建议或建议都非常感谢。

0 投票
2 回答
2605 浏览

java - 如何打印 mahout lda cvb 主题

我想使用 mahout CVB0Driver API 运行集群 lda cvb 作业。但我不知道如何打印结果。这是我的代码。

程序运行时卡住VectorDumper.main(topicTermDumperArg);

我用mahout-core-0.7,mahout-utils-0.5,下载新闻资源点这里

0 投票
1 回答
1374 浏览

lda - LDA 可以为一个词分配多个主题吗?

我刚刚开始阅读有关潜在 Dirichlet 分配 LDA 的内容,并希望将其应用到我的项目中。

我可以知道 LDA 是否能够将主题分配给多个单词?

例如,A 条谈到“河流银行”,而 B 条谈到“银行在金融中的作用”。因此,LDA 是否允许将“银行”一词潜在地分配给两个不同的主题?

0 投票
2 回答
11227 浏览

python - 在 Gensim LDA 中记录主题分布

我使用玩具语料库导出了 LDA 主题模型,如下所示:

我发现当我使用少量主题来推导模型时,Gensim 会生成一份完整的测试文档所有潜在主题的主题分布报告。例如:

但是当我使用大量主题时,报告不再完整:

在我看来,概率小于某个阈值的主题(我观察到 0.01 更具体)在输出中被省略了。

我想知道这种行为是否是出于某种审美考虑?我怎样才能得到概率质量残差在所有其他主题上的分布?

谢谢你的好意回答!

0 投票
4 回答
25389 浏览

python - Gensim:如何将 LDA 模型生成的主题保存为可读格式(csv、txt 等)?

代码的最后部分:

bash 输出:

所以我想知道我是否能够将它生成的结果主题保存为可读格式。我已经尝试过这些.save()方法,但它总是输出一些不可读的东西。

0 投票
5 回答
30185 浏览

nlp - 如何确定 LDA 的主题数量?

我是 LDA 的新生,我想在我的工作中使用它。但是,也出现了一些问题。

为了获得最佳性能,我想估计最佳主题数。读完《寻找科学话题》后,我知道我可以先计算 logP(w|z),然后使用一系列 P(w|z) 的调和平均值来估计 P(w|T)。

我的问题是“一系列”是什么意思?

0 投票
3 回答
6893 浏览

python - 如何在gensim中打印出LDA主题中单词的完整分布?

以下代码中的lda.show_topics模块仅打印每个主题的前 10 个单词的分布,我如何打印出语料库中所有单词的完整分布?

0 投票
0 回答
422 浏览

machine-learning - 如何根据 Mahout TopicModel 输出推断新文档?

给定来自 Mahout LDA CVB 程序/离线批处理执行的主题模型,我喜欢使用模型/在线 Web 服务调用来推断新文档。

这些文档对于新的和推断的帮助并不大。* https://builds.apache.org/job/Mahout-Quality/javadoc/org/apache/mahout/clustering/lda/cvb/TopicModel.html * http://svn.apache.org/viewvc/mahout/trunk /core/src/main/java/org/apache/mahout/clustering/lda/cvb/TopicModel.java?view=markup

我什至在 Internet 或其他地方都找不到任何示例代码。

在这里,我想我可能想用Java代码做,

TopicModel model = new TopicModel();

Vector documentInTermFrequency = new RandomAccessSparseVector(); documentInTermFrequence.setQuick(termIdX, 10); documentInTermFrequence.setQuick(termIdY, 20);

Vector docTopic = new DenseVector(new Double[10] { 0.1, 0.1, ..., 0.1 }); // 0.1 probabilities

Vector documentTopicInference = model.infer(documentInTermFrequence, docTopic);

我没见过有人尝试过这样的事情吗?有没有人尝试过这样的事情?

任何建议或指针将不胜感激。

0 投票
1 回答
1430 浏览

parameters - 在 LDA 模型中,多项式参数 (theta) 是如何从 Dirichlet 先验权重 (alpha) 得出的?

我是现在正在学习LDA(潜在狄利克雷分配)模型的大一新生。但是,我遇到了一个问题。

theta是如何从alpha中得出的?

theta ~ Dir (alpha)

根据我的简短理解,变量 theta 是一个长度为 K 的向量,它的分量代表文档中的主题比例。并且,每个文档的 theta 彼此不同。而且,在语料库级别,alpha 仍然是一个 K 向量,而 theta 是一个 M(# of docs) x K(# of topic) 大小的矩阵。

第一个问题:我上面说的是真的吗?

第二个问题:如果是真的,在文档上,如何从同一个 Dirichlet 分布中得出不同的 thetas(K 向量)?