问题标签 [gensim]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2274 问题

0 投票

3 回答

3704 浏览

python - 如何在 gensim 的 LDA 模型中获取主题编号

我已经在 text_corpus 上使用 gensim 训练了 LDA 模型。

现在，如果必须推断一个新的文本文档 text_sparse_vector 我必须做

但是我如何获得每个相应主题的单词分布。例如，我如何知道主题编号 16 的前 20 个单词？

gensim.models.ldamodel.LdaModel 类具有名为 show_topics(topics=10, topn=10, log=False, formatted=True) 的方法，但正如文档所述，它显示随机选择的主题列表。

有没有办法链接或打印我可以将推断的主题编号映射到单词分布？

python nlp lda gensim

2012-12-17T11:20:56.640

0 投票

2 回答

918 浏览

python - gensim 为 tf-idf 模型创建字典时是否使用了词干提取？

我正在使用 Gensim python 工具包为文档构建 tf-idf 模型。所以我需要先为所有文档创建一个字典。但是，我发现 Gensim 在创建字典和语料库之前不使用词干提取。我对吗？

python nlp gensim

2013-01-22T21:11:09.947

0 投票

1 回答

508 浏览

python - 关于如何在 gensim 中实现 tf-idf 模型的一点困惑

我正在研究 tf-idf 模型。我对这个模型是如何实现的没有什么困惑。现在，当我尝试打印模型时，我已经构建了模型，它为同一术语提供了不同的值。以下两个术语给出了这些结果：

结果如下：

我只是想知道，为什么术语 0 的 tf-idf 值在 val1 中为 0.5648，在 val2 中为 1.0。

python nlp tf-idf gensim

2013-02-05T11:01:37.083

0 投票

10 回答

41928 浏览

python - 如何从 gensim 打印 LDA 主题模型？Python

使用gensim我能够从 LSA 中的一组文档中提取主题，但是如何访问从 LDA 模型生成的主题？

打印lda.print_topics(10)代码时出现以下错误，因为print_topics()返回 a NoneType：

编码：

python nlp lda topic-modeling gensim

2013-02-22T02:47:42.070

0 投票

1 回答

2087 浏览

python - 为什么 `gensim` 中的 tf-idf 模型在我转换语料库后会丢弃术语和计数？

为什么gensim我转换语料库后 tf-idf 模型会丢弃术语和计数？

我的代码：

输出：

python nlp information-retrieval tf-idf gensim

2013-02-23T01:40:55.927

0 投票

4 回答

16490 浏览

python - 每次我在同一个语料库上训练时，LDA 模型都会生成不同的主题

我正在使用 pythongensim从一个包含 231 个句子的小型语料库中训练一个潜在狄利克雷分配 (LDA) 模型。然而，每次我重复这个过程，它都会产生不同的主题。

为什么相同的LDA参数和语料每次都会产生不同的主题？

以及如何稳定主题生成？

我正在使用这个语料库（http://pastebin.com/WptkKVF0）和这个停用词列表（http://pastebin.com/LL7dqLcj），这是我的代码：

python nlp lda topic-modeling gensim

2013-02-25T13:08:28.630

0 投票

2 回答

3227 浏览

python - 我应该使用哪个 gensim 语料库类来加载 LDA 转换的语料库？- Python

如何从 python 加载 LDA 转换的语料库gensim？我试过的：

上面的代码将输出：

如果我想加载保存的 LDA 转换语料库，gensim我应该使用哪个类来加载？

我试过使用corpora.MmCorpus.load()，它没有给我转换后的语料库的相同输出，如上所示：

python nlp corpus lda gensim

2013-03-03T10:20:55.593

0 投票

2 回答

951 浏览

python - Gensim 主题打印错误/问题

全部，

这是对我在此线程中回复的内容的重新发布。尝试在 gensim 中打印 LSI 主题时，我得到了一些完全错误的结果。这是我的代码：

这会将以下内容打印到控制台。

我希望能够打印出@2er0在这里所做的主题，但我得到了这样的结果。请参见下文并注意打印的第二个项目是一个元组，我不知道它来自哪里。data.txt 是一个包含多个段落的文本文件。就这些。

对此的任何想法都会很棒！亚当

python topic-modeling gensim

2013-03-07T00:24:44.577

0 投票

1 回答

1787 浏览

python - 如何使用 csr_matrix 初始化 gensim 语料库变量？

我有 X 作为我使用 scikit 的 tfidf 矢量化器获得的 csr_matrix，而 y 是一个数组

我的计划是使用 LDA 创建功能，但是，我找不到如何使用 X 作为 csr_matrix 来初始化 gensim 的语料库变量。换句话说，我不想下载 gensim 文档中显示的语料库，也不想将 X 转换为密集矩阵，因为它会消耗大量内存并且计算机可能会挂起。

简而言之，我的问题如下，

鉴于我有一个代表整个语料库的 csr_matrix （稀疏），你如何初始化一个 gensim 语料库？
如何使用 LDA 提取特征？

python scikit-learn document-classification lda gensim

2013-03-27T22:12:52.193

0 投票

1 回答

7294 浏览

python - 我们可以使用自制的语料库使用 gensim 进行 LDA 训练吗？

我必须应用 LDA（潜在狄利克雷分配）从我收集的 20,000 个文档的数据库中获取可能的主题。

我如何使用这些文档而不是其他可用的语料库（如布朗语料库或英语维基百科）作为训练语料库？

你可以参考这个页面。

python lda gensim

2013-04-27T16:05:52.957

1 2 3 4 5 6 7 8 9 10