问题标签 [topic-modeling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1538 浏览

r - LDA 主题模型包

同学们,

我是主题建模的初学者。我在 R 中使用主题模型包。函数调用是 LDA(data, k)。

我想知道使用了哪些 alpha 和 beta 值?另外,哪种推理算法用于参数估计?变分 EM 还是 Gibbs?

谢谢

0 投票
2 回答
940 浏览

topic-modeling - 主题建模和发现主题中的相似性

问题陈述:我有几个文件(20k 个文件)。我需要应用主题建模来查找相似的文档,然后分析这些相似的文档以找出它们之间的不同之处。问:谁能建议我任何可以实现这一目标的主题建模包。我正在探索 Mallet 和 Gensim Python。不确定哪个最适合我的要求。

任何帮助将不胜感激。

0 投票
1 回答
2170 浏览

python - python IndexError 使用 gensim 进行 LDA 主题建模

另一个线程有一个与我类似的问题,但遗漏了可重现的代码。

有问题的脚本的目标是创建一个尽可能节省内存的进程。所以我尝试编写一个类corpus()来利用 gensims 的功能。但是,我遇到了一个 IndexError,我不确定在创建lda = models.ldamodel.LdaModel(corpus_tfidf, id2word=checker.dictionary, num_topics=int(options.number_of_topics)).

我使用的文档与 gensim 教程中使用的文档相同,我将其放入 tutorial_example.txt:

收到错误

下面是gensim_topic_modeling.py脚本:

结果topic-modeling-log文件如下。提前感谢您的帮助!

主题建模日志

0 投票
1 回答
2617 浏览

r - R - LDA 主题模型输出数据

我正在使用“topicmodels”包在 R 中构建一些主题模型。在预处理和创建文档术语矩阵之后,我正在应用以下 LDA Gibbs 模型。这可能是一个简单的答案,但我是 R 的新手,所以就这样吧。有没有办法可以将主题和术语列表及其概率导出到文本文件或 Excel 文件?我可以在 R 中打印它们(如下所示),但不知道如何导出 :(

这主要是因为我可以做一些可视化,我确信可以在 Excel 中完成,但就像我提到的那样,我是一个新手,没有太多可用于学习 R 中的可视化技术。希望这是有道理的

0 投票
1 回答
815 浏览

java - MALLET 主题建模:输入字符串

我有这个代码来导入文件.mallet:

但是如果我想手动切换每个实例,我该怎么办?我试过这个:

但它给了我一个错误!

编辑

我试过了,它似乎可以处理一个字符串数组:

0 投票
3 回答
4954 浏览

python - 如何将令牌添加到 gensim 字典

我使用从文档集合中构建字典。每个文档都是一个令牌列表。这是我的代码

我的问题是如何将新文档(令牌)添加到这本字典并更新它。我在gensim文档中搜索但没有找到解决方案

0 投票
1 回答
566 浏览

java - Mallet java: get probability distribution of a documents collection

I would like to get a single probability distribution for a collection of documents, as I need to be able to use the KL-Divergence, is this possible?

In this example: http://mallet.cs.umass.edu/topics-devel.php with the method getTopicProbabilities() I get the probability distribution of each instance, but if I wanted to get a single distribution for a collection of documents?

Could this be the topic distribution of the documents?

0 投票
1 回答
834 浏览

lda - MALLET 主题中单词的排名

我对槌子比较陌生,需要知道:-槌子产生的每个主题中的单词是否以某种方式排序?- 如果是这样,主题列表中的排序(即)是第一个在整个语料库中分布最高的排序(即)是什么?

谢谢!

0 投票
2 回答
601 浏览

java - 无法运行 Mallet TopicModel

我正在尝试运行 Mallet 的主题建模,但出现以下错误:

我已经添加了所有的jar文件!你能告诉我这里有什么问题吗?

谢谢,

0 投票
3 回答
3033 浏览

lda - 大型数据集的主题建模工具 (30GB)

我正在寻找一些适用于大型数据集的主题建模工具。

我当前的训练数据集是 30 GB。我尝试了MALLET 主题建模,但总是出现 OutOfMemoryError。

如果您有任何提示,请告诉我。