问题标签 [topic-modeling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - LDA 主题模型包
同学们,
我是主题建模的初学者。我在 R 中使用主题模型包。函数调用是 LDA(data, k)。
我想知道使用了哪些 alpha 和 beta 值?另外,哪种推理算法用于参数估计?变分 EM 还是 Gibbs?
谢谢
topic-modeling - 主题建模和发现主题中的相似性
问题陈述:我有几个文件(20k 个文件)。我需要应用主题建模来查找相似的文档,然后分析这些相似的文档以找出它们之间的不同之处。问:谁能建议我任何可以实现这一目标的主题建模包。我正在探索 Mallet 和 Gensim Python。不确定哪个最适合我的要求。
任何帮助将不胜感激。
python - python IndexError 使用 gensim 进行 LDA 主题建模
另一个线程有一个与我类似的问题,但遗漏了可重现的代码。
有问题的脚本的目标是创建一个尽可能节省内存的进程。所以我尝试编写一个类corpus()
来利用 gensims 的功能。但是,我遇到了一个 IndexError,我不确定在创建lda = models.ldamodel.LdaModel(corpus_tfidf, id2word=checker.dictionary, num_topics=int(options.number_of_topics))
.
我使用的文档与 gensim 教程中使用的文档相同,我将其放入 tutorial_example.txt:
收到错误
下面是gensim_topic_modeling.py
脚本:
结果topic-modeling-log
文件如下。提前感谢您的帮助!
主题建模日志
r - R - LDA 主题模型输出数据
我正在使用“topicmodels”包在 R 中构建一些主题模型。在预处理和创建文档术语矩阵之后,我正在应用以下 LDA Gibbs 模型。这可能是一个简单的答案,但我是 R 的新手,所以就这样吧。有没有办法可以将主题和术语列表及其概率导出到文本文件或 Excel 文件?我可以在 R 中打印它们(如下所示),但不知道如何导出 :(
这主要是因为我可以做一些可视化,我确信可以在 Excel 中完成,但就像我提到的那样,我是一个新手,没有太多可用于学习 R 中的可视化技术。希望这是有道理的
java - MALLET 主题建模:输入字符串
我有这个代码来导入文件.mallet:
但是如果我想手动切换每个实例,我该怎么办?我试过这个:
但它给了我一个错误!
编辑
我试过了,它似乎可以处理一个字符串数组:
python - 如何将令牌添加到 gensim 字典
我使用gensim从文档集合中构建字典。每个文档都是一个令牌列表。这是我的代码
我的问题是如何将新文档(令牌)添加到这本字典并更新它。我在gensim文档中搜索但没有找到解决方案
java - Mallet java: get probability distribution of a documents collection
I would like to get a single probability distribution for a collection of documents, as I need to be able to use the KL-Divergence, is this possible?
In this example: http://mallet.cs.umass.edu/topics-devel.php with the method getTopicProbabilities() I get the probability distribution of each instance, but if I wanted to get a single distribution for a collection of documents?
Could this be the topic distribution of the documents?
lda - MALLET 主题中单词的排名
我对槌子比较陌生,需要知道:-槌子产生的每个主题中的单词是否以某种方式排序?- 如果是这样,主题列表中的排序(即)是第一个在整个语料库中分布最高的排序(即)是什么?
谢谢!
java - 无法运行 Mallet TopicModel
我正在尝试运行 Mallet 的主题建模,但出现以下错误:
我已经添加了所有的jar文件!你能告诉我这里有什么问题吗?
谢谢,