问题标签 [topic-modeling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cluster-analysis - 主题建模和文档聚类之间有什么关系?
主题建模识别文档集合中的主题分布,从而有效地识别集合中的集群。那么是否可以说主题建模是一种进行文档聚类的技术?
lda - 动态主题模型输出 - Blei 格式
我正在使用 Blei 开发的动态主题模型包。我是 LDA 的新手,但我理解它。
我想知道
lda-seq/topic-000-var-obs.dat
商店名称的输出是什么?
我知道它lda-seq/topic-001-var-e-log-prob.dat
存储了变分后验的对数,并通过对其应用指数,我得到了主题 001 中单词的概率。
谢谢
r - 预测新数据的 LDA 主题
看起来这个问题之前可能已经被问过几次(这里 和这里),但还没有回答。如评论所示,我希望这是由于先前所问问题的模棱两可。如果我再次提出类似问题而违反协议,我深表歉意,我只是假设这些问题不会看到任何新答案。
无论如何,我是潜在狄利克雷分配的新手,并且正在探索将其用作文本数据降维的一种手段。最终,我想从一个非常大的词袋中提取一组较小的主题,并使用这些主题作为模型中的几个变量来构建一个分类模型。我已经成功地在训练集上运行 LDA,但我遇到的问题是能够预测哪些相同的主题出现在其他一些测试数据集中。我现在正在使用 R 的 topicmodels 包,但如果有其他方法可以使用其他包,我也对此持开放态度。
这是我正在尝试做的一个例子:
python - 使用 gensim 将 LDA 应用于语料库进行训练
我有大约 20,000 个文档的语料库,我必须使用 LDA 训练该数据集以进行主题建模。
每当我运行这个程序时,我都会遇到这个错误:
我什至尝试更改LdaModel
函数中的值,但总是遇到同样的错误!
应该做什么 ?
python - 如何使用经过训练的 LDA 模型使用 gensim 预测新查询的主题?
我已经使用 gensim 为 LDA 主题建模训练了一个语料库。
浏览 gensim 网站上的教程(这不是全部代码):
这是我得到的输出:
我不知道最后的输出将如何帮助我找到可能的主题question
!!!
请帮忙!
r - 尝试从 DocumentTermMatrix 中删除单词以使用主题模型
因此,我正在尝试将topicmodels
包用于R
(约 6400 个文档的语料库中的 100 个主题,每个约 1000 个单词)。该进程运行然后死亡,我认为是因为它的内存不足。
所以我尝试缩小lda()
函数作为输入的文档术语矩阵的大小;minDocFreq
我想我可以在生成文档术语矩阵时使用该函数来做到这一点。但是当我使用它时,它似乎没有任何区别。这是一些代码:
这是相关的代码:
相同的维度和相同的列数(即相同数量的术语)。
任何感觉我做错了什么?谢谢。
r - R主题建模:lda模型标注功能
我使用 LDA 为 2 个文本文档 A 和 B 建立主题模型。文档 A 与计算机科学高度相关,文档 B 与地球科学高度相关。然后我使用这个命令训练了一个 lda:
现在我想使用 my_lda 来预测一个新文档的上下文,比如 C,我想看看它是否与计算机科学或地球科学有关。我知道我是否使用此代码进行预测
它会给我一个标签 1 或 2,但我不知道 1 或 2 代表什么……我怎么知道它是指计算机科学相关还是地球科学相关?
mahout - mahout 0.7 中 cvb 的输出
我在 hadoop 1.0.4 上运行 Mahout 0.7。我想查看主题建模任务的路透社数据集的结果。但是,当我在 Mahout 中使用 vectordump 工具时,我得到了一些无用的结果。我已阅读此示例的以下说明:
在 mahout 0.8 中运行 cvb。
但在执行vectordump工具后,我在输出中收到一个巨大的文件,其中包含以下几行:{0.01:5.726429339702471E-12,0.05:6.196569958376538E-9,...} 我不确定这是否是我们应该看到的路透社数据集的实际输出。
machine-learning - 标记的 LDA 使用情况
我正在做一个需要应用主题模型 LDA 的项目。因为我的每个文档都很短,所以我必须使用 Labeled LDA。我在这方面的知识不多,我需要做的就是将 LLDA 应用于我的数据。
在网上搜索后,我在Stanford TMT上找到了一个 LLDA 实现。我从训练带标签的 LDA 模型一节中了解到:我应该在训练之前标记每个输入文档。我是不是误会了什么?
如果我的理解是正确的,这将涉及太多的标签文件工作。相反,我可以提供单独的主题列表,并训练没有标签的文档吗?
topic-modeling - 主题建模,但有已知主题?
好的,所以通常主题模型(例如 LDA、pLSI 等)用于以无监督的方式推断可能存在于一组文档中的主题。我想知道是否有人对如何将我的问题硬塞进 LDA 框架有任何想法,因为有非常好的工具可用于解决 LDA 问题。
为了彻底起见,我输入了以下信息:
- 一组文件(来自一个有机体的 DNA 片段,其中每个片段都是一个文件)
- 在这种情况下,一个文档只能有一个主题
- 一组主题(来自其他生物的 DNA 片段)
- 在这种情况下,单词是三元组(现在)
我要回答的问题是:对于当前的文档,它的主题是什么?换句话说,对于给定的 DNA 片段,它最有可能来自哪个其他生物体(同一物种)?自从发生片段交换以来,可能已经发生了突变等,因此这两个片段将不相同。
这与经典 LDA 模型的主要区别在于我提前知道了主题。
我最初的想法是采用 pLSA 模型(http://en.wikipedia.org/wiki/PLSA)并明确设置主题节点,然后执行标准 EM 学习(如果有一个像样的库可以处理贝叶斯参数使用潜在变量学习...),然后使用任何算法进行推理(这无关紧要,因为模型无论如何都是多树)。
编辑:我想我已经解决了,对于任何可能偶然发现这个问题的人。我发现您可以使用带标签的 LDA 并将每个标签分配给每个文档。由于每个标签都与主题一一对应,因此您实际上是在对算法说:对于每个文档,从给定的一组主题(标签集)中选择主题,而不是自己编造。