问题标签 [lda]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1128 问题

0 投票

1 回答

6749 浏览

r - 如何在 Iris 数据集上计算混淆矩阵？

数据集：Iris 如何为 LDA（线性判别分析）模型计算数据集上的混淆矩阵？

r lda

2012-11-14T09:15:28.223

0 投票

3 回答

16461 浏览

machine-learning - 文档分类的监督潜在狄利克雷分配？

我在某些组中有一堆已经被人类分类的文件。

是否有修改版本的 lda 可以用来训练模型，然后用它对未知文档进行分类？

2012-11-25T20:12:20.140

0 投票

0 回答

1140 浏览

r - 任何包都包含 R 中的 Labeled-LDA 实现

我正在使用 R 研究有监督的主题模型；有一个带有标签的数千字文档，我想设计一个应用程序来自动为新文档分配标签。我正在使用 R 来测试算法并选择最好的算法。

我的问题是：是否有任何实现 Labeled-LDA 的 R 包？ 顺便说一句：我尝试过包：tm、、和topicmodel，并尝试了一些算法，例如 SVM LDAldaRTextTools

r lda topic-modeling

2012-12-04T14:45:15.497

0 投票

1 回答

293 浏览

amazon-ec2 - Mahout LDA：实际可以使用的最大字典大小是多少？

我在 EC2 上运行 Mahout 的 LDA（使用 Whirr）。您在实践中能够使用的最大词汇量是多少？你能分享一些 Hadoop/EC2 设置吗？

理想情况下，我想在 3M 文档（1B 令牌）的语料库上运行 LDA，并使用 20M 令牌的字典。

我尝试了 LDA 的其他 map-reduce 实现（hadoop-lda，LDA 先生），但并没有设法将其扩展得很远（请证明我错了！）

amazon-ec2 mahout bigdata lda

2012-12-06T02:32:54.170

0 投票

1 回答

990 浏览

python - 如何将 R LDA 主题模型导入主题模型可视化引擎（TMVE）？

在 Python 中构建主题模型和主题浏览器的好框架是什么？

主题模型可视化引擎(TMVE) 可能会将潜在狄利克雷分配的结果通过管道传输到网站中。我已经学会在 R 中使用 topicmodel 库，但我不知道如何将它导入 TMVE。

主要是，我正在寻找使用 Python 或 R 的解决方案。我可能只是尝试从 R 输出构建我自己的（非常糟糕的）主题浏览器。

看起来这是一两年前的热门研究课题。David Blei 页面上的资源似乎已经过时了。

TMVE好像在 gitHub 上，最后一次编辑是一年前。

python browser lda topic-modeling

2012-12-14T04:18:36.680

0 投票

2 回答

14831 浏览

matlab - 线性判别分析 LDA

我有一个大型多维数据集（240 维）。

我是执行数据挖掘的初学者，我想通过使用 MATLAB 应用线性判别分析。但是，我看到网上解释了很多功能，但我不明白应该如何应用它们。

基本上，我想申请LDA。

在这一步之后，我希望能够对我的数据进行重建。

我可以手动执行此操作，但我想知道是否有任何预定义的函数可以执行此操作，因为它们应该已经过优化。

我的初始数据类似于：size(x) = [2000 240]. 所以基本上我有 240 个特征（维度）和 2000 个数据点。我想在这个数据集上执行 LDA。

matlab analysis lda

2012-12-16T20:23:56.947

0 投票

3 回答

3704 浏览

python - 如何在 gensim 的 LDA 模型中获取主题编号

我已经在 text_corpus 上使用 gensim 训练了 LDA 模型。

现在，如果必须推断一个新的文本文档 text_sparse_vector 我必须做

但是我如何获得每个相应主题的单词分布。例如，我如何知道主题编号 16 的前 20 个单词？

gensim.models.ldamodel.LdaModel 类具有名为 show_topics(topics=10, topn=10, log=False, formatted=True) 的方法，但正如文档所述，它显示随机选择的主题列表。

有没有办法链接或打印我可以将推断的主题编号映射到单词分布？

python nlp lda gensim

2012-12-17T11:20:56.640

0 投票

6 回答

31281 浏览

r - 从 R 主题模型中的 DocumentTermMatrix 中删除空文档？

我正在使用 R 中的 topicmodels 包进行主题建模。我正在创建一个语料库对象，进行一些基本的预处理，然后创建一个 DocumentTermMatrix：

然后执行 LDA：

对 LDA() 的最终调用返回错误

我假设这意味着至少有一个文档在预处理后没有术语。有没有一种简单的方法可以从 DocumentTermMatrix 中删除不包含任何术语的文档？

我查看了 topicmodels 包的文档，发现了 removeSparseTerms 函数，该函数删除了未出现在任何文档中的术语，但没有类似的删除文档。

r lda topic-modeling topicmodels

2012-12-19T01:25:43.583

0 投票

3 回答

2703 浏览

scala - 删除斯坦福主题建模工具箱中的标准英语停用词

我正在使用Stanford Topic Modeling Toolbox 0.4.0 for LDA，我注意到如果我想删除标准的英语停用词，我可以使用 aStopWordFilter("en")作为标记器的最后一步，但我该如何使用它？

scala lda stanford-nlp

2012-12-20T02:34:45.760

0 投票

1 回答

238 浏览

machine-learning - 关于 Blei 的 lda-c-dist 的推断结果

我对 lda-c-dist 包的推理结果有疑问。查看推理结果时应该显示多少个单词？例如，如果我将单词数设置为非常大的数 N（假设所有术语的数量为 N），则似乎存在一些单词组。在每组中，词的索引范围从 1 到 N。

我得到的是，假设术语数是 10，我将显示的单词数分配给 10。

看来，可能是我应该设置显示 3 的单词，而不是 10。

那么，对于一个主题，调用topics.py查看主题时，应该指定多少字呢？

此外，我将使用这个输出来计算两个主题的相似度。所以 ...

machine-learning lda topic-modeling

2013-01-23T03:56:09.800

1 2 3 4 5 6 7 8 9 10

问题标签 [lda]

Reference