问题标签 [topic-modeling]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

874 问题

0 投票

2 回答

2367 浏览

java - 使用 Java 中的 Mallet 在 LDA 中折叠（估计新文档的主题）

我正在通过 Java 使用 Mallet，但我不知道如何根据我训练过的现有主题模型评估新文档。

我生成模型的初始代码与Mallett Developers Guide for Topic Modeling中的代码非常相似，之后我只是将模型保存为 Java 对象。在稍后的过程中，我从文件中重新加载该 Java 对象，通过添加新实例.addInstances()，然后希望仅根据原始训练集中找到的主题评估这些新实例。

这个 stats.SE 线程提供了一些高级建议，但我看不到如何将它们用于 Mallet 框架。

非常感谢任何帮助。

java mallet topic-modeling

2013-01-03T14:50:45.097

0 投票

1 回答

238 浏览

machine-learning - 关于 Blei 的 lda-c-dist 的推断结果

我对 lda-c-dist 包的推理结果有疑问。查看推理结果时应该显示多少个单词？例如，如果我将单词数设置为非常大的数 N（假设所有术语的数量为 N），则似乎存在一些单词组。在每组中，词的索引范围从 1 到 N。

我得到的是，假设术语数是 10，我将显示的单词数分配给 10。

看来，可能是我应该设置显示 3 的单词，而不是 10。

那么，对于一个主题，调用topics.py查看主题时，应该指定多少字呢？

此外，我将使用这个输出来计算两个主题的相似度。所以 ...

machine-learning lda topic-modeling

2013-01-23T03:56:09.800

0 投票

1 回答

2084 浏览

twitter - 用于主题检测的推文之间的表示和良好的相似性度量

我打算在Twitter 上写一个主题检测工具。我一直在考虑两条推文之间的良好相似性度量（距离），以及如何表示它们，并计算：

#hashtags（我认为主题标签在检测 Twitter 上的主题时非常重要）
回复（如果有人回复一条推文，这些推文可能在谈论同一个话题，尽管两个人可以开始谈论三星银河并结束谈论iPhone 越狱等）

我正在考虑实施我目前所拥有的并做一些实验。我将实现经典模型（例如TF*IDF并使用欧几里德距离、角度余弦等），以及带有一些相似性度量的布尔模型（Hamming、Jaccard等）。

关于如何使一些现有模型适应Twitter的任何想法或关于如何创建新模型的一些想法？

twitter machine-learning cluster-analysis information-retrieval topic-modeling

2013-02-06T10:06:49.833

0 投票

2 回答

4316 浏览

mahout - 在 mahout 0.8 中运行 cvb

当前的 Mahout 0.8-SNAPSHOT 包括用于主题建模的折叠变分贝叶斯 (cvb) 版本并删除了潜在狄利克雷分析 (lda) 方法，因为 cvb 可以更好地并行化。不幸的是，只有关于如何运行示例并生成有意义的输出的lda文档。

因此，我想：

正确预处理一些文本
运行 cvb 的 cvb0_local 版本
通过查看每个生成的主题中的前 n 个单词来检查结果

mahout lda topic-modeling

2013-02-07T17:24:09.057

0 投票

3 回答

26214 浏览

r - LDA 与 topicmodels，我如何查看不同文档属于哪些主题？

我正在使用 topicmodels 包中的 LDA，我已经在大约 30.000 个文档上运行它，获得了 30 个主题，并获得了主题的前 10 个单词，它们看起来非常好。但是我想看看哪些文档属于哪个主题的概率最高，我该怎么做？

r lda topic-modeling tm

demt

2013-02-14T12:22:32.600

0 投票

1 回答

4422 浏览

nlp - NLP 的停用词列表

he, she, it在执行 NLP 或 IR/IE 相关任务时，是否有人们通常用来删除标点符号和关闭类词（例如）的停用词列表？

我一直在尝试使用 gibbs 抽样来进行词义消歧的主题建模，并且它不断给标点符号和近类词提供高概率，只是因为它们经常出现在语料库中。https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py

nlp information-retrieval lda topic-modeling wsd

2013-02-18T09:46:11.013

0 投票

10 回答

41928 浏览

python - 如何从 gensim 打印 LDA 主题模型？Python

使用gensim我能够从 LSA 中的一组文档中提取主题，但是如何访问从 LDA 模型生成的主题？

打印lda.print_topics(10)代码时出现以下错误，因为print_topics()返回 a NoneType：

编码：

python nlp lda topic-modeling gensim

2013-02-22T02:47:42.070

0 投票

4 回答

16490 浏览

python - 每次我在同一个语料库上训练时，LDA 模型都会生成不同的主题

我正在使用 pythongensim从一个包含 231 个句子的小型语料库中训练一个潜在狄利克雷分配 (LDA) 模型。然而，每次我重复这个过程，它都会产生不同的主题。

为什么相同的LDA参数和语料每次都会产生不同的主题？

以及如何稳定主题生成？

我正在使用这个语料库（http://pastebin.com/WptkKVF0）和这个停用词列表（http://pastebin.com/LL7dqLcj），这是我的代码：

python nlp lda topic-modeling gensim

2013-02-25T13:08:28.630

0 投票

2 回答

951 浏览

python - Gensim 主题打印错误/问题

全部，

这是对我在此线程中回复的内容的重新发布。尝试在 gensim 中打印 LSI 主题时，我得到了一些完全错误的结果。这是我的代码：

这会将以下内容打印到控制台。

我希望能够打印出@2er0在这里所做的主题，但我得到了这样的结果。请参见下文并注意打印的第二个项目是一个元组，我不知道它来自哪里。data.txt 是一个包含多个段落的文本文件。就这些。

对此的任何想法都会很棒！亚当

python topic-modeling gensim

2013-03-07T00:24:44.577

0 投票

1 回答

2430 浏览

r - R中的函数topicmodels::lda出错

我正在尝试使用 R 中 topicmodels 包中的 LDA 模型。我需要测量方法的不稳定性，因此我从 Dirichlet 分布中生成了 w = 3000 个单词、t = 8 个主题和 d = 50 个文档的真实参数，其中大约 60 个单词每一个：

所以我的 docs 矩阵是一个稀疏矩阵 d * w，几乎所有元素都是 0 或 1。

然后我需要我的文档矩阵成为 DocumentTermMatrix 类的对象，以便在 topicmodels:lda() 中使用它：

我需要使用吉布斯采样方法，所以我写

然后我得到：

lda.default(docs, t, method = "Gibbs") 中的错误：nrow(x) 和 length(grouping) 不同

我猜这个 topicmodels 包使用 MASS 包，但是这个分组参数是我无法明确控制的，可以吗？或者我对我的数据做错了什么？

请帮我！

BR，玛丽亚

r lda topic-modeling

2013-03-15T10:19:25.743

1 2 3 4 5 6 7 8 9 10