问题标签 [gensim]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1788 浏览

python - 使用 gensim 将 LDA 应用于语料库进行训练

我有大约 20,000 个文档的语料库,我必须使用 LDA 训练该数据集以进行主题建模。

每当我运行这个程序时,我都会遇到这个错误:

我什至尝试更改LdaModel函数中的值,但总是遇到同样的错误!

应该做什么 ?

0 投票
3 回答
15966 浏览

python - 如何使用经过训练的 LDA 模型使用 gensim 预测新查询的主题?

我已经使用 gensim 为 LDA 主题建模训练了一个语料库。

浏览 gensim 网站上的教程(这不是全部代码):

这是我得到的输出:

我不知道最后的输出将如何帮助我找到可能的主题question!!!

请帮忙!

0 投票
0 回答
1775 浏览

python - 使用 Gensim 计算 2 个文档之间的 TF-IDF 相似度

我正在使用 Gensim 来计算 2 个文档之间的相似度。由于某种原因, tfidf[corpus] 行返回一个空列表。我不知道为什么

当我打印字典时,我得到:字典(2204 个唯一标记)当我打印 MmCorpus 时,我得到:MmCorpus(25 个文档,2204 个特征,55100 个非零条目)tfidf[corpus] yield []。谁能诊断我的问题?非常感谢!

0 投票
1 回答
491 浏览

python - (Gensim) ValueError: 无效的形状,带有 alpha 参数

首先,这是获取执行 LDA 的语料库主题分布的正确方法吗?

现在,当我将 alpha 参数添加到 LDA 并尝试将语料库转换为稀疏矩阵时,就会出现问题,如下所示:

在从 gensim 语料库到第 3 行中的稀疏矩阵的转换过程中,出现错误ValueError: invalid shape

我只有在添加 ALPHA 参数时才会遇到这个问题!

完整的追溯:

0 投票
1 回答
6621 浏览

python - PyCharm 中的 Gensim ImportError:没有名为 scipy.sparse 的模块

我在 Mac OS X 10.8.3 (Mountain Lion) 上,正在尝试在 PyCharm 中运行脚本。Python 2.7.2 已安装,我已安装 Canopy 和 Gensim。我只是不明白是什么导致了我遇到的错误。

显示已安装 v 0.11。

这是运行脚本后我的全部输出:

0 投票
6 回答
102318 浏览

python - 如何在 Python 中从语料库创建词云?

通过从R 中的语料库中创建单词子集,回答者可以轻松地将 aterm-document matrix转换为词云。

python库中是否有类似的函数将原始单词文本文件或NLTK语料库或GensimMmcorpus带入词云?

结果看起来有点像这样: 在此处输入图像描述

0 投票
2 回答
11227 浏览

python - 在 Gensim LDA 中记录主题分布

我使用玩具语料库导出了 LDA 主题模型,如下所示:

我发现当我使用少量主题来推导模型时,Gensim 会生成一份完整的测试文档所有潜在主题的主题分布报告。例如:

但是当我使用大量主题时,报告不再完整:

在我看来,概率小于某个阈值的主题(我观察到 0.01 更具体)在输出中被省略了。

我想知道这种行为是否是出于某种审美考虑?我怎样才能得到概率质量残差在所有其他主题上的分布?

谢谢你的好意回答!

0 投票
4 回答
25389 浏览

python - Gensim:如何将 LDA 模型生成的主题保存为可读格式(csv、txt 等)?

代码的最后部分:

bash 输出:

所以我想知道我是否能够将它生成的结果主题保存为可读格式。我已经尝试过这些.save()方法,但它总是输出一些不可读的东西。

0 投票
3 回答
6893 浏览

python - 如何在gensim中打印出LDA主题中单词的完整分布?

以下代码中的lda.show_topics模块仅打印每个主题的前 10 个单词的分布,我如何打印出语料库中所有单词的完整分布?

0 投票
2 回答
1138 浏览

python - python gensim:索引数组具有非整数dtype(float64)

我正在使用这个gensim教程来查找文本之间的相似之处。这是代码

这里有两个文件。一个有 10 个文本,另一个有 2 个文本。一个被注释掉了。如果我使用第一个文档列表,一切都会正常并生成有意义的输出。如果我使用第二个文档列表(有 2 个文本),则会发生错误。就这个

此错误背后的原因是什么,我该如何解决?我使用的是 64 位机器。