问题标签 [lda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6749 浏览

r - 如何在 Iris 数据集上计算混淆矩阵?

数据集:Iris 如何为 LDA(线性判别分析)模型计算数据集上的混淆矩阵?

0 投票
3 回答
16461 浏览

machine-learning - 文档分类的监督潜在狄利克雷分配?

我在某些组中有一堆已经被人类分类的文件。

是否有修改版本的 lda 可以用来训练模型,然后用它对未知文档进行分类?

0 投票
0 回答
1140 浏览

r - 任何包都包含 R 中的 Labeled-LDA 实现

我正在使用 R 研究有监督的主题模型;有一个带有标签的数千字文档,我想设计一个应用程序来自动为新文档分配标签。我正在使用 R 来测试算法并选择最好的算法。

我的问题是:是否有任何实现 Labeled-LDA 的 R 包? 顺便说一句:我尝试过包:tm、、 和topicmodel,并尝试了一些算法,例如 SVM LDAldaRTextTools

0 投票
1 回答
293 浏览

amazon-ec2 - Mahout LDA:实际可以使用的最大字典大小是多少?

我在 EC2 上运行 Mahout 的 LDA(使用 Whirr)。您在实践中能够使用的最大词汇量是多少?你能分享一些 Hadoop/EC2 设置吗?

理想情况下,我想在 3M 文档(1B 令牌)的语料库上运行 LDA,并使用 20M 令牌的字典。

我尝试了 LDA 的其他 map-reduce 实现(hadoop-lda,LDA 先生),但并没有设法将其扩展得很远(请证明我错了!)

0 投票
1 回答
990 浏览

python - 如何将 R LDA 主题模型导入主题模型可视化引擎(TMVE)?

在 Python 中构建主题模型和主题浏览器的好框架是什么?

主题模型可视化引擎(TMVE) 可能会将潜在狄利克雷分配的结果通过管道传输到网站中。我已经学会在 R 中使用 topicmodel 库,但我不知道如何将它导入 TMVE。


主要是,我正在寻找使用 Python 或 R 的解决方案。我可能只是尝试从 R 输出构建我自己的(非常糟糕的)主题浏览器。

看起来这是一两年前的热门研究课题。David Blei 页面上的资源似乎已经过时了。

TMVE好像在 gitHub 上,最后一次编辑是一年前。

0 投票
2 回答
14831 浏览

matlab - 线性判别分析 LDA

我有一个大型多维数据集(240 维)。

我是执行数据挖掘的初学者,我想通过使用 MATLAB 应用线性判别分析。但是,我看到网上解释了很多功能,但我不明白应该如何应用它们。

基本上,我想申请LDA。

在这一步之后,我希望能够对我的数据进行重建。

我可以手动执行此操作,但我想知道是否有任何预定义的函数可以执行此操作,因为它们应该已经过优化。

我的初始数据类似于:size(x) = [2000 240]. 所以基本上我有 240 个特征(维度)和 2000 个数据点。我想在这个数据集上执行 LDA。

0 投票
3 回答
3704 浏览

python - 如何在 gensim 的 LDA 模型中获取主题编号

我已经在 text_corpus 上使用 gensim 训练了 LDA 模型。

现在,如果必须推断一个新的文本文档 text_sparse_vector 我必须做

但是我如何获得每个相应主题的单词分布。例如,我如何知道主题编号 16 的前 20 个单词?

gensim.models.ldamodel.LdaModel 类具有名为 show_topics(topics=10, topn=10, log=False, formatted=True) 的方法,但正如文档所述,它显示随机选择的主题列表。

有没有办法链接或打印我可以将推断的主题编号映射到单词分布?

0 投票
6 回答
31281 浏览

r - 从 R 主题模型中的 DocumentTermMatrix 中删除空文档?

我正在使用 R 中的 topicmodels 包进行主题建模。我正在创建一个语料库对象,进行一些基本的预处理,然后创建一个 DocumentTermMatrix:

然后执行 LDA:

对 LDA() 的最终调用返回错误

我假设这意味着至少有一个文档在预处理后没有术语。有没有一种简单的方法可以从 DocumentTermMatrix 中删除不包含任何术语的文档?

我查看了 topicmodels 包的文档,发现了 removeSparseTerms 函数,该函数删除了未出现在任何文档中的术语,但没有类似的删除文档。

0 投票
3 回答
2703 浏览

scala - 删除斯坦福主题建模工具箱中的标准英语停用词

我正在使用Stanford Topic Modeling Toolbox 0.4.0 for LDA,我注意到如果我想删除标准的英语停用词,我可以使用 aStopWordFilter("en")作为标记器的最后一步,但我该如何使用它?

0 投票
1 回答
238 浏览

machine-learning - 关于 Blei 的 lda-c-dist 的推断结果

我对 lda-c-dist 包的推理结果有疑问。查看推理结果时应该显示多少个单词?例如,如果我将单词数设置为非常大的数 N(假设所有术语的数量为 N),则似乎存在一些单词组。在每组中,词的索引范围从 1 到 N。

我得到的是,假设术语数是 10,我将显示的单词数分配给 10。

看来,可能是我应该设置显示 3 的单词,而不是 10。

那么,对于一个主题,调用topics.py查看主题时,应该指定多少字呢?

此外,我将使用这个输出来计算两个主题的相似度。所以 ...