问题标签 [lda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
4316 浏览

mahout - 在 mahout 0.8 中运行 cvb

当前的 Mahout 0.8-SNAPSHOT 包括用于主题建模的折叠变分贝叶斯 (cvb) 版本并删除了潜在狄利克雷分析 (lda) 方法,因为 cvb 可以更好地并行化。不幸的是,只有关于如何运行示例并生成有意义的输出的lda文档。

因此,我想:

  • 正确预处理一些文本
  • 运行 cvb 的 cvb0_local 版本
  • 通过查看每个生成的主题中的前 n 个单词来检查结果
0 投票
3 回答
26214 浏览

r - LDA 与 topicmodels,我如何查看不同文档属于哪些主题?

我正在使用 topicmodels 包中的 LDA,我已经在大约 30.000 个文档上运行它,获得了 30 个主题,并获得了主题的前 10 个单词,它们看起来非常好。但是我想看看哪些文档属于哪个主题的概率最高,我该怎么做?

0 投票
1 回答
4422 浏览

nlp - NLP 的停用词列表

he, she, it在执行 NLP 或 IR/IE 相关任务时,是否有人们通常用来删除标点符号和关闭类词(例如)的停用词列表?

我一直在尝试使用 gibbs 抽样来进行词义消歧的主题建模,并且它不断给标点符号和近类词提供高概率,只是因为它们经常出现在语料库中。https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py

0 投票
10 回答
41928 浏览

python - 如何从 gensim 打印 LDA 主题模型?Python

使用gensim我能够从 LSA 中的一组文档中提取主题,但是如何访问从 LDA 模型生成的主题?

打印lda.print_topics(10)代码时出现以下错误,因为print_topics()返回 a NoneType

编码:

0 投票
4 回答
16490 浏览

python - 每次我在同一个语料库上训练时,LDA 模型都会生成不同的主题

我正在使用 pythongensim从一个包含 231 个句子的小型语料库中训练一个潜在狄利克雷分配 (LDA) 模型。然而,每次我重复这个过程,它都会产生不同的主题。

为什么相同的LDA参数和语料每次都会产生不同的主题?

以及如何稳定主题生成?

我正在使用这个语料库(http://pastebin.com/WptkKVF0)和这个停用词列表(http://pastebin.com/LL7dqLcj),这是我的代码:

0 投票
2 回答
3227 浏览

python - 我应该使用哪个 gensim 语料库类来加载 LDA 转换的语料库?- Python

如何从 python 加载 LDA 转换的语料库gensim我试过的:

上面的代码将输出:

如果我想加载保存的 LDA 转换语料库,gensim我应该使用哪个类来加载?

我试过使用corpora.MmCorpus.load(),它没有给我转换后的语料库的相同输出,如上所示:

0 投票
1 回答
363 浏览

mahout - 如何使用 mahout-distribution-0.7 中的 jar 文件运行 lda

我有几个 jar 文件,即 mahout-integration-0.7.jar、mahout-math-0.7.jar、mahout-core-0.7.jar、mahout-core-0.7-job.jar、mahout-examples-0.7.jar 和mahout-examples-0.7-job.jar。如何通过调用某个 jar 文件来运行 LDA,例如我应该首先声明什么及其参数?

我已经在互联网上搜索了示例,但其中大多数

但是这些 jar 文件中没有这样的 lda.class 文件。那么如果我使用这些 jar 文件,我应该怎么做才能运行 LDA。

0 投票
1 回答
2430 浏览

r - R中的函数topicmodels::lda出错

我正在尝试使用 R 中 topicmodels 包中的 LDA 模型。我需要测量方法的不稳定性,因此我从 Dirichlet 分布中生成了 w = 3000 个单词、t = 8 个主题和 d = 50 个文档的真实参数,其中大约 60 个单词每一个:

所以我的 docs 矩阵是一个稀疏矩阵 d * w,几乎所有元素都是 0 或 1。

然后我需要我的文档矩阵成为 DocumentTermMatrix 类的对象,以便在 topicmodels:lda() 中使用它:

我需要使用吉布斯采样方法,所以我写

然后我得到:

lda.default(docs, t, method = "Gibbs") 中的错误:nrow(x) 和 length(grouping) 不同

我猜这个 topicmodels 包使用 MASS 包,但是这个分组参数是我无法明确控制的,可以吗?或者我对我的数据做错了什么?

请帮我!

BR,玛丽亚

0 投票
2 回答
629 浏览

lda - 动态主题模型输出 - Blei 格式

我正在使用 Blei 开发的动态主题模型包。我是 LDA 的新手,但我理解它。

我想知道 lda-seq/topic-000-var-obs.dat商店名称的输出是什么?

我知道它lda-seq/topic-001-var-e-log-prob.dat存储了变分后验的对数,并通过对其应用指数,我得到了主题 001 中单词的概率。

谢谢

0 投票
1 回答
1787 浏览

python - 如何使用 csr_matrix 初始化 gensim 语料库变量?

我有 X 作为我使用 scikit 的 tfidf 矢量化器获得的 csr_matrix,而 y 是一个数组

我的计划是使用 LDA 创建功能,但是,我找不到如何使用 X 作为 csr_matrix 来初始化 gensim 的语料库变量。换句话说,我不想下载 gensim 文档中显示的语料库,也不想将 X 转换为密集矩阵,因为它会消耗大量内存并且计算机可能会挂起。

简而言之,我的问题如下,

  1. 鉴于我有一个代表整个语料库的 csr_matrix (稀疏),你如何初始化一个 gensim 语料库?
  2. 如何使用 LDA 提取特征?