问题标签 [gensim]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2274 问题

0 投票

1 回答

1788 浏览

python - 使用 gensim 将 LDA 应用于语料库进行训练

我有大约 20,000 个文档的语料库，我必须使用 LDA 训练该数据集以进行主题建模。

每当我运行这个程序时，我都会遇到这个错误：

我什至尝试更改LdaModel函数中的值，但总是遇到同样的错误！

应该做什么？

python nlp gensim lda topic-modeling

2013-04-28T04:37:21.523

0 投票

3 回答

15966 浏览

python - 如何使用经过训练的 LDA 模型使用 gensim 预测新查询的主题？

我已经使用 gensim 为 LDA 主题建模训练了一个语料库。

浏览 gensim 网站上的教程（这不是全部代码）：

这是我得到的输出：

我不知道最后的输出将如何帮助我找到可能的主题question!!!

请帮忙！

python nlp lda topic-modeling gensim

2013-04-28T10:39:43.780

0 投票

0 回答

1775 浏览

python - 使用 Gensim 计算 2 个文档之间的 TF-IDF 相似度

我正在使用 Gensim 来计算 2 个文档之间的相似度。由于某种原因， tfidf[corpus] 行返回一个空列表。我不知道为什么

当我打印字典时，我得到：字典（2204 个唯一标记）当我打印 MmCorpus 时，我得到：MmCorpus（25 个文档，2204 个特征，55100 个非零条目）tfidf[corpus] yield []。谁能诊断我的问题？非常感谢！

python nlp similarity gensim

2013-04-30T22:10:04.537

0 投票

1 回答

491 浏览

python - (Gensim) ValueError: 无效的形状，带有 alpha 参数

首先，这是获取执行 LDA 的语料库主题分布的正确方法吗？

现在，当我将 alpha 参数添加到 LDA 并尝试将语料库转换为稀疏矩阵时，就会出现问题，如下所示：

在从 gensim 语料库到第 3 行中的稀疏矩阵的转换过程中，出现错误ValueError: invalid shape

我只有在添加 ALPHA 参数时才会遇到这个问题！

完整的追溯：

python lda gensim

2013-05-12T17:00:00.123

0 投票

1 回答

6621 浏览

python - PyCharm 中的 Gensim ImportError：没有名为 scipy.sparse 的模块

我在 Mac OS X 10.8.3 (Mountain Lion) 上，正在尝试在 PyCharm 中运行脚本。Python 2.7.2 已安装，我已安装 Canopy 和 Gensim。我只是不明白是什么导致了我遇到的错误。

显示已安装 v 0.11。

这是运行脚本后我的全部输出：

python scipy pycharm lda gensim

2013-05-14T21:35:04.413

0 投票

6 回答

102318 浏览

python - 如何在 Python 中从语料库创建词云？

通过从R 中的语料库中创建单词子集，回答者可以轻松地将 aterm-document matrix转换为词云。

python库中是否有类似的函数将原始单词文本文件或NLTK语料库或GensimMmcorpus带入词云？

结果看起来有点像这样：在此处输入图像描述

python nltk corpus gensim word-cloud

2013-05-20T08:51:42.783

0 投票

2 回答

11227 浏览

python - 在 Gensim LDA 中记录主题分布

我使用玩具语料库导出了 LDA 主题模型，如下所示：

我发现当我使用少量主题来推导模型时，Gensim 会生成一份完整的测试文档所有潜在主题的主题分布报告。例如：

但是当我使用大量主题时，报告不再完整：

在我看来，概率小于某个阈值的主题（我观察到 0.01 更具体）在输出中被省略了。

我想知道这种行为是否是出于某种审美考虑？我怎样才能得到概率质量残差在所有其他主题上的分布？

谢谢你的好意回答！

python lda gensim

2013-06-26T03:13:39.583

0 投票

4 回答

25389 浏览

python - Gensim：如何将 LDA 模型生成的主题保存为可读格式（csv、txt 等）？

代码的最后部分：

bash 输出：

所以我想知道我是否能够将它生成的结果主题保存为可读格式。我已经尝试过这些.save()方法，但它总是输出一些不可读的东西。

python lda gensim

2013-06-27T22:39:49.517

0 投票

3 回答

6893 浏览

python - 如何在gensim中打印出LDA主题中单词的完整分布？

以下代码中的lda.show_topics模块仅打印每个主题的前 10 个单词的分布，我如何打印出语料库中所有单词的完整分布？

python lda topic-modeling gensim

2013-07-15T20:06:08.240

0 投票

2 回答

1138 浏览

python - python gensim：索引数组具有非整数dtype（float64）

我正在使用这个gensim教程来查找文本之间的相似之处。这是代码

这里有两个文件。一个有 10 个文本，另一个有 2 个文本。一个被注释掉了。如果我使用第一个文档列表，一切都会正常并生成有意义的输出。如果我使用第二个文档列表（有 2 个文本），则会发生错误。就这个

此错误背后的原因是什么，我该如何解决？我使用的是 64 位机器。

python gensim

2013-07-20T18:45:27.930

1 2 3 4 5 6 7 8 9 10