问题标签 [gensim]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 gensim 将 LDA 应用于语料库进行训练
我有大约 20,000 个文档的语料库,我必须使用 LDA 训练该数据集以进行主题建模。
每当我运行这个程序时,我都会遇到这个错误:
我什至尝试更改LdaModel
函数中的值,但总是遇到同样的错误!
应该做什么 ?
python - 如何使用经过训练的 LDA 模型使用 gensim 预测新查询的主题?
我已经使用 gensim 为 LDA 主题建模训练了一个语料库。
浏览 gensim 网站上的教程(这不是全部代码):
这是我得到的输出:
我不知道最后的输出将如何帮助我找到可能的主题question
!!!
请帮忙!
python - 使用 Gensim 计算 2 个文档之间的 TF-IDF 相似度
我正在使用 Gensim 来计算 2 个文档之间的相似度。由于某种原因, tfidf[corpus] 行返回一个空列表。我不知道为什么
当我打印字典时,我得到:字典(2204 个唯一标记)当我打印 MmCorpus 时,我得到:MmCorpus(25 个文档,2204 个特征,55100 个非零条目)tfidf[corpus] yield []。谁能诊断我的问题?非常感谢!
python - (Gensim) ValueError: 无效的形状,带有 alpha 参数
首先,这是获取执行 LDA 的语料库主题分布的正确方法吗?
现在,当我将 alpha 参数添加到 LDA 并尝试将语料库转换为稀疏矩阵时,就会出现问题,如下所示:
在从 gensim 语料库到第 3 行中的稀疏矩阵的转换过程中,出现错误ValueError: invalid shape
我只有在添加 ALPHA 参数时才会遇到这个问题!
完整的追溯:
python - PyCharm 中的 Gensim ImportError:没有名为 scipy.sparse 的模块
我在 Mac OS X 10.8.3 (Mountain Lion) 上,正在尝试在 PyCharm 中运行脚本。Python 2.7.2 已安装,我已安装 Canopy 和 Gensim。我只是不明白是什么导致了我遇到的错误。
显示已安装 v 0.11。
这是运行脚本后我的全部输出:
python - 如何在 Python 中从语料库创建词云?
通过从R 中的语料库中创建单词子集,回答者可以轻松地将 aterm-document matrix
转换为词云。
python库中是否有类似的函数将原始单词文本文件或NLTK
语料库或Gensim
Mmcorpus带入词云?
结果看起来有点像这样:
python - 在 Gensim LDA 中记录主题分布
我使用玩具语料库导出了 LDA 主题模型,如下所示:
我发现当我使用少量主题来推导模型时,Gensim 会生成一份完整的测试文档所有潜在主题的主题分布报告。例如:
但是当我使用大量主题时,报告不再完整:
在我看来,概率小于某个阈值的主题(我观察到 0.01 更具体)在输出中被省略了。
我想知道这种行为是否是出于某种审美考虑?我怎样才能得到概率质量残差在所有其他主题上的分布?
谢谢你的好意回答!
python - Gensim:如何将 LDA 模型生成的主题保存为可读格式(csv、txt 等)?
代码的最后部分:
bash 输出:
所以我想知道我是否能够将它生成的结果主题保存为可读格式。我已经尝试过这些.save()
方法,但它总是输出一些不可读的东西。
python - 如何在gensim中打印出LDA主题中单词的完整分布?
以下代码中的lda.show_topics
模块仅打印每个主题的前 10 个单词的分布,我如何打印出语料库中所有单词的完整分布?
python - python gensim:索引数组具有非整数dtype(float64)
我正在使用这个gensim教程来查找文本之间的相似之处。这是代码
这里有两个文件。一个有 10 个文本,另一个有 2 个文本。一个被注释掉了。如果我使用第一个文档列表,一切都会正常并生成有意义的输出。如果我使用第二个文档列表(有 2 个文本),则会发生错误。就这个
此错误背后的原因是什么,我该如何解决?我使用的是 64 位机器。