问题标签 [lda]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1128 问题

0 投票

1 回答

3507 浏览

machine-learning - 标记的 LDA 使用情况

我正在做一个需要应用主题模型 LDA 的项目。因为我的每个文档都很短，所以我必须使用 Labeled LDA。我在这方面的知识不多，我需要做的就是将 LLDA 应用于我的数据。

在网上搜索后，我在Stanford TMT上找到了一个 LLDA 实现。我从训练带标签的 LDA 模型一节中了解到：我应该在训练之前标记每个输入文档。我是不是误会了什么？

如果我的理解是正确的，这将涉及太多的标签文件工作。相反，我可以提供单独的主题列表，并训练没有标签的文档吗？

2013-05-24T17:03:35.357

0 投票

0 回答

176 浏览

sparse-matrix - LingPipe LDA 矩阵表示

我正在尝试从推文列表中提取可能的主题，LingPipe LDA 似乎很容易理解，并且带有代码示例。

我的挑战是使用推文数据生成矩阵表示。例如，

static String[] WORDS = new String[] { "river", "stream", "bank", "money", "loan" };

静态最终 int[][] DOC_WORDS = new int[][] {

}

上述矩阵末尾的零应该表示在内容中找不到 WORDS 数组中的任何单词。然而，在这个表示中，假设是零索引或者找到了单词“river”。

由于推文很短，我不确定如何表示矩阵，以便它也可以显示单词的“不存在”。

任何其他方法的建议或建议都非常感谢。

sparse-matrix lda

2013-05-26T10:25:26.930

0 投票

2 回答

2605 浏览

java - 如何打印 mahout lda cvb 主题

我想使用 mahout CVB0Driver API 运行集群 lda cvb 作业。但我不知道如何打印结果。这是我的代码。

程序运行时卡住VectorDumper.main(topicTermDumperArg);。

我用mahout-core-0.7,mahout-utils-0.5，下载新闻资源点这里

java cluster-analysis mahout lda

2013-06-07T23:50:53.077

0 投票

1 回答

1374 浏览

lda - LDA 可以为一个词分配多个主题吗？

我刚刚开始阅读有关潜在 Dirichlet 分配 LDA 的内容，并希望将其应用到我的项目中。

我可以知道 LDA 是否能够将主题分配给多个单词？

例如，A 条谈到“河流银行”，而 B 条谈到“银行在金融中的作用”。因此，LDA 是否允许将“银行”一词潜在地分配给两个不同的主题？

lda topic-modeling

2013-06-13T11:27:27.000

0 投票

2 回答

11227 浏览

python - 在 Gensim LDA 中记录主题分布

我使用玩具语料库导出了 LDA 主题模型，如下所示：

我发现当我使用少量主题来推导模型时，Gensim 会生成一份完整的测试文档所有潜在主题的主题分布报告。例如：

但是当我使用大量主题时，报告不再完整：

在我看来，概率小于某个阈值的主题（我观察到 0.01 更具体）在输出中被省略了。

我想知道这种行为是否是出于某种审美考虑？我怎样才能得到概率质量残差在所有其他主题上的分布？

谢谢你的好意回答！

python lda gensim

2013-06-26T03:13:39.583

0 投票

4 回答

25389 浏览

python - Gensim：如何将 LDA 模型生成的主题保存为可读格式（csv、txt 等）？

代码的最后部分：

bash 输出：

所以我想知道我是否能够将它生成的结果主题保存为可读格式。我已经尝试过这些.save()方法，但它总是输出一些不可读的东西。

python lda gensim

2013-06-27T22:39:49.517

0 投票

5 回答

30185 浏览

nlp - 如何确定 LDA 的主题数量？

我是 LDA 的新生，我想在我的工作中使用它。但是，也出现了一些问题。

为了获得最佳性能，我想估计最佳主题数。读完《寻找科学话题》后，我知道我可以先计算 logP(w|z)，然后使用一系列 P(w|z) 的调和平均值来估计 P(w|T)。

我的问题是“一系列”是什么意思？

nlp data-mining lda

2013-07-02T09:22:44.413

0 投票

3 回答

6893 浏览

python - 如何在gensim中打印出LDA主题中单词的完整分布？

以下代码中的lda.show_topics模块仅打印每个主题的前 10 个单词的分布，我如何打印出语料库中所有单词的完整分布？

python lda topic-modeling gensim

2013-07-15T20:06:08.240

0 投票

0 回答

422 浏览

machine-learning - 如何根据 Mahout TopicModel 输出推断新文档？

给定来自 Mahout LDA CVB 程序/离线批处理执行的主题模型，我喜欢使用模型/在线 Web 服务调用来推断新文档。

这些文档对于新的和推断的帮助并不大。* https://builds.apache.org/job/Mahout-Quality/javadoc/org/apache/mahout/clustering/lda/cvb/TopicModel.html * http://svn.apache.org/viewvc/mahout/trunk /core/src/main/java/org/apache/mahout/clustering/lda/cvb/TopicModel.java?view=markup

我什至在 Internet 或其他地方都找不到任何示例代码。

在这里，我想我可能想用Java代码做，

TopicModel model = new TopicModel();

Vector documentInTermFrequency = new RandomAccessSparseVector(); documentInTermFrequence.setQuick(termIdX, 10); documentInTermFrequence.setQuick(termIdY, 20);

Vector docTopic = new DenseVector(new Double[10] { 0.1, 0.1, ..., 0.1 }); // 0.1 probabilities

Vector documentTopicInference = model.infer(documentInTermFrequence, docTopic);

我没见过有人尝试过这样的事情吗？有没有人尝试过这样的事情？

任何建议或指针将不胜感激。

machine-learning mahout lda inference topic-modeling

2013-07-25T07:35:30.610

0 投票

1 回答

1430 浏览

parameters - 在 LDA 模型中，多项式参数 (theta) 是如何从 Dirichlet 先验权重 (alpha) 得出的？

我是现在正在学习LDA（潜在狄利克雷分配）模型的大一新生。但是，我遇到了一个问题。

theta是如何从alpha中得出的？

theta ~ Dir (alpha)

根据我的简短理解，变量 theta 是一个长度为 K 的向量，它的分量代表文档中的主题比例。并且，每个文档的 theta 彼此不同。而且，在语料库级别，alpha 仍然是一个 K 向量，而 theta 是一个 M(# of docs) x K(# of topic) 大小的矩阵。

第一个问题：我上面说的是真的吗？

第二个问题：如果是真的，在文档上，如何从同一个 Dirichlet 分布中得出不同的 thetas（K 向量）？

parameters lda topic-modeling dirichlet

2013-08-12T06:18:55.210

1 2 3 4 5 6 7 8 9 10

问题标签 [lda]

Reference