问题标签 [topic-modeling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2367 浏览

java - 使用 Java 中的 Mallet 在 LDA 中折叠(估计新文档的主题)

我正在通过 Java 使用 Mallet,但我不知道如何根据我训练过的现有主题模型评估新文档。

我生成模型的初始代码与Mallett Developers Guide for Topic Modeling中的代码非常相似,之后我只是将模型保存为 Java 对象。在稍后的过程中,我从文件中重新加载该 Java 对象,通过添加新实例.addInstances(),然后希望仅根据原始训练集中找到的主题评估这些新实例。

这个 stats.SE 线程提供了一些高级建议,但我看不到如何将它们用于 Mallet 框架。

非常感谢任何帮助。

0 投票
1 回答
238 浏览

machine-learning - 关于 Blei 的 lda-c-dist 的推断结果

我对 lda-c-dist 包的推理结果有疑问。查看推理结果时应该显示多少个单词?例如,如果我将单词数设置为非常大的数 N(假设所有术语的数量为 N),则似乎存在一些单词组。在每组中,词的索引范围从 1 到 N。

我得到的是,假设术语数是 10,我将显示的单词数分配给 10。

看来,可能是我应该设置显示 3 的单词,而不是 10。

那么,对于一个主题,调用topics.py查看主题时,应该指定多少字呢?

此外,我将使用这个输出来计算两个主题的相似度。所以 ...

0 投票
1 回答
2084 浏览

twitter - 用于主题检测的推文之间的表示和良好的相似性度量

我打算在Twitter 上写一个主题检测工具。我一直在考虑两条推文之间的良好相似性度量(距离) ,以及如何表示它们,并计算:

  • #hashtags(我认为主题标签在检测 Twitter 上的主题时非常重要)
  • 回复(如果有人回复一条推文,这些推文可能在谈论同一个话题,尽管两个人可以开始谈论三星银河并结束谈论iPhone 越狱等)

我正在考虑实施我目前所拥有的并做一些实验。我将实现经典模型(例如TF*IDF并使用欧几里德距离角度余弦等),以及带有一些相似性度量的布尔模型(HammingJaccard等)。

关于如何使一些现有模型适应Twitter的任何想法或关于如何创建新模型的一些想法?

0 投票
2 回答
4316 浏览

mahout - 在 mahout 0.8 中运行 cvb

当前的 Mahout 0.8-SNAPSHOT 包括用于主题建模的折叠变分贝叶斯 (cvb) 版本并删除了潜在狄利克雷分析 (lda) 方法,因为 cvb 可以更好地并行化。不幸的是,只有关于如何运行示例并生成有意义的输出的lda文档。

因此,我想:

  • 正确预处理一些文本
  • 运行 cvb 的 cvb0_local 版本
  • 通过查看每个生成的主题中的前 n 个单词来检查结果
0 投票
3 回答
26214 浏览

r - LDA 与 topicmodels,我如何查看不同文档属于哪些主题?

我正在使用 topicmodels 包中的 LDA,我已经在大约 30.000 个文档上运行它,获得了 30 个主题,并获得了主题的前 10 个单词,它们看起来非常好。但是我想看看哪些文档属于哪个主题的概率最高,我该怎么做?

0 投票
1 回答
4422 浏览

nlp - NLP 的停用词列表

he, she, it在执行 NLP 或 IR/IE 相关任务时,是否有人们通常用来删除标点符号和关闭类词(例如)的停用词列表?

我一直在尝试使用 gibbs 抽样来进行词义消歧的主题建模,并且它不断给标点符号和近类词提供高概率,只是因为它们经常出现在语料库中。https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py

0 投票
10 回答
41928 浏览

python - 如何从 gensim 打印 LDA 主题模型?Python

使用gensim我能够从 LSA 中的一组文档中提取主题,但是如何访问从 LDA 模型生成的主题?

打印lda.print_topics(10)代码时出现以下错误,因为print_topics()返回 a NoneType

编码:

0 投票
4 回答
16490 浏览

python - 每次我在同一个语料库上训练时,LDA 模型都会生成不同的主题

我正在使用 pythongensim从一个包含 231 个句子的小型语料库中训练一个潜在狄利克雷分配 (LDA) 模型。然而,每次我重复这个过程,它都会产生不同的主题。

为什么相同的LDA参数和语料每次都会产生不同的主题?

以及如何稳定主题生成?

我正在使用这个语料库(http://pastebin.com/WptkKVF0)和这个停用词列表(http://pastebin.com/LL7dqLcj),这是我的代码:

0 投票
2 回答
951 浏览

python - Gensim 主题打印错误/问题

全部,

这是对我在此线程中回复的内容的重新发布。尝试在 gensim 中打印 LSI 主题时,我得到了一些完全错误的结果。这是我的代码:

这会将以下内容打印到控制台。

我希望能够打印出@2er0在这里所做的主题,但我得到了这样的结果。请参见下文并注意打印的第二个项目是一个元组,我不知道它来自哪里。data.txt 是一个包含多个段落的文本文件。就这些。

对此的任何想法都会很棒!亚当

0 投票
1 回答
2430 浏览

r - R中的函数topicmodels::lda出错

我正在尝试使用 R 中 topicmodels 包中的 LDA 模型。我需要测量方法的不稳定性,因此我从 Dirichlet 分布中生成了 w = 3000 个单词、t = 8 个主题和 d = 50 个文档的真实参数,其中大约 60 个单词每一个:

所以我的 docs 矩阵是一个稀疏矩阵 d * w,几乎所有元素都是 0 或 1。

然后我需要我的文档矩阵成为 DocumentTermMatrix 类的对象,以便在 topicmodels:lda() 中使用它:

我需要使用吉布斯采样方法,所以我写

然后我得到:

lda.default(docs, t, method = "Gibbs") 中的错误:nrow(x) 和 length(grouping) 不同

我猜这个 topicmodels 包使用 MASS 包,但是这个分组参数是我无法明确控制的,可以吗?或者我对我的数据做错了什么?

请帮我!

BR,玛丽亚