问题标签 [lda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 标记的 LDA 使用情况
我正在做一个需要应用主题模型 LDA 的项目。因为我的每个文档都很短,所以我必须使用 Labeled LDA。我在这方面的知识不多,我需要做的就是将 LLDA 应用于我的数据。
在网上搜索后,我在Stanford TMT上找到了一个 LLDA 实现。我从训练带标签的 LDA 模型一节中了解到:我应该在训练之前标记每个输入文档。我是不是误会了什么?
如果我的理解是正确的,这将涉及太多的标签文件工作。相反,我可以提供单独的主题列表,并训练没有标签的文档吗?
sparse-matrix - LingPipe LDA 矩阵表示
我正在尝试从推文列表中提取可能的主题,LingPipe LDA 似乎很容易理解,并且带有代码示例。
我的挑战是使用推文数据生成矩阵表示。例如,
static String[] WORDS = new String[] { "river", "stream", "bank", "money", "loan" };
静态最终 int[][] DOC_WORDS = new int[][] {
}
上述矩阵末尾的零应该表示在内容中找不到 WORDS 数组中的任何单词。然而,在这个表示中,假设是零索引或者找到了单词“river”。
由于推文很短,我不确定如何表示矩阵,以便它也可以显示单词的“不存在”。
任何其他方法的建议或建议都非常感谢。
java - 如何打印 mahout lda cvb 主题
我想使用 mahout CVB0Driver API 运行集群 lda cvb 作业。但我不知道如何打印结果。这是我的代码。
程序运行时卡住VectorDumper.main(topicTermDumperArg);
。
我用mahout-core-0.7,mahout-utils-0.5,下载新闻资源点这里
lda - LDA 可以为一个词分配多个主题吗?
我刚刚开始阅读有关潜在 Dirichlet 分配 LDA 的内容,并希望将其应用到我的项目中。
我可以知道 LDA 是否能够将主题分配给多个单词?
例如,A 条谈到“河流银行”,而 B 条谈到“银行在金融中的作用”。因此,LDA 是否允许将“银行”一词潜在地分配给两个不同的主题?
python - 在 Gensim LDA 中记录主题分布
我使用玩具语料库导出了 LDA 主题模型,如下所示:
我发现当我使用少量主题来推导模型时,Gensim 会生成一份完整的测试文档所有潜在主题的主题分布报告。例如:
但是当我使用大量主题时,报告不再完整:
在我看来,概率小于某个阈值的主题(我观察到 0.01 更具体)在输出中被省略了。
我想知道这种行为是否是出于某种审美考虑?我怎样才能得到概率质量残差在所有其他主题上的分布?
谢谢你的好意回答!
python - Gensim:如何将 LDA 模型生成的主题保存为可读格式(csv、txt 等)?
代码的最后部分:
bash 输出:
所以我想知道我是否能够将它生成的结果主题保存为可读格式。我已经尝试过这些.save()
方法,但它总是输出一些不可读的东西。
nlp - 如何确定 LDA 的主题数量?
我是 LDA 的新生,我想在我的工作中使用它。但是,也出现了一些问题。
为了获得最佳性能,我想估计最佳主题数。读完《寻找科学话题》后,我知道我可以先计算 logP(w|z),然后使用一系列 P(w|z) 的调和平均值来估计 P(w|T)。
我的问题是“一系列”是什么意思?
python - 如何在gensim中打印出LDA主题中单词的完整分布?
以下代码中的lda.show_topics
模块仅打印每个主题的前 10 个单词的分布,我如何打印出语料库中所有单词的完整分布?
machine-learning - 如何根据 Mahout TopicModel 输出推断新文档?
给定来自 Mahout LDA CVB 程序/离线批处理执行的主题模型,我喜欢使用模型/在线 Web 服务调用来推断新文档。
这些文档对于新的和推断的帮助并不大。* https://builds.apache.org/job/Mahout-Quality/javadoc/org/apache/mahout/clustering/lda/cvb/TopicModel.html * http://svn.apache.org/viewvc/mahout/trunk /core/src/main/java/org/apache/mahout/clustering/lda/cvb/TopicModel.java?view=markup
我什至在 Internet 或其他地方都找不到任何示例代码。
在这里,我想我可能想用Java代码做,
TopicModel model = new TopicModel();
Vector documentInTermFrequency = new RandomAccessSparseVector();
documentInTermFrequence.setQuick(termIdX, 10);
documentInTermFrequence.setQuick(termIdY, 20);
Vector docTopic = new DenseVector(new Double[10] { 0.1, 0.1, ..., 0.1 }); // 0.1 probabilities
Vector documentTopicInference = model.infer(documentInTermFrequence, docTopic);
我没见过有人尝试过这样的事情吗?有没有人尝试过这样的事情?
任何建议或指针将不胜感激。
parameters - 在 LDA 模型中,多项式参数 (theta) 是如何从 Dirichlet 先验权重 (alpha) 得出的?
我是现在正在学习LDA(潜在狄利克雷分配)模型的大一新生。但是,我遇到了一个问题。
theta是如何从alpha中得出的?
theta ~ Dir (alpha)
根据我的简短理解,变量 theta 是一个长度为 K 的向量,它的分量代表文档中的主题比例。并且,每个文档的 theta 彼此不同。而且,在语料库级别,alpha 仍然是一个 K 向量,而 theta 是一个 M(# of docs) x K(# of topic) 大小的矩阵。
第一个问题:我上面说的是真的吗?
第二个问题:如果是真的,在文档上,如何从同一个 Dirichlet 分布中得出不同的 thetas(K 向量)?