问题标签 [gensim]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3704 浏览

python - 如何在 gensim 的 LDA 模型中获取主题编号

我已经在 text_corpus 上使用 gensim 训练了 LDA 模型。

现在,如果必须推断一个新的文本文档 text_sparse_vector 我必须做

但是我如何获得每个相应主题的单词分布。例如,我如何知道主题编号 16 的前 20 个单词?

gensim.models.ldamodel.LdaModel 类具有名为 show_topics(topics=10, topn=10, log=False, formatted=True) 的方法,但正如文档所述,它显示随机选择的主题列表。

有没有办法链接或打印我可以将推断的主题编号映射到单词分布?

0 投票
2 回答
918 浏览

python - gensim 为 tf-idf 模型创建字典时是否使用了词干提取?

我正在使用 Gensim python 工具包为文档构建 tf-idf 模型。所以我需要先为所有文档创建一个字典。但是,我发现 Gensim 在创建字典和语料库之前不使用词干提取。我对吗 ?

0 投票
1 回答
508 浏览

python - 关于如何在 gensim 中实现 tf-idf 模型的一点困惑

我正在研究 tf-idf 模型。我对这个模型是如何实现的没有什么困惑。现在,当我尝试打印模型时,我已经构建了模型,它为同一术语提供了不同的值。以下两个术语给出了这些结果:

结果如下:

我只是想知道,为什么术语 0 的 tf-idf 值在 val1 中为 0.5648,在 val2 中为 1.0。

0 投票
10 回答
41928 浏览

python - 如何从 gensim 打印 LDA 主题模型?Python

使用gensim我能够从 LSA 中的一组文档中提取主题,但是如何访问从 LDA 模型生成的主题?

打印lda.print_topics(10)代码时出现以下错误,因为print_topics()返回 a NoneType

编码:

0 投票
1 回答
2087 浏览

python - 为什么 `gensim` 中的 tf-idf 模型在我转换语料库后会丢弃术语和计数?

为什么gensim我转换语料库后 tf-idf 模型会丢弃术语和计数?

我的代码:

输出:

0 投票
4 回答
16490 浏览

python - 每次我在同一个语料库上训练时,LDA 模型都会生成不同的主题

我正在使用 pythongensim从一个包含 231 个句子的小型语料库中训练一个潜在狄利克雷分配 (LDA) 模型。然而,每次我重复这个过程,它都会产生不同的主题。

为什么相同的LDA参数和语料每次都会产生不同的主题?

以及如何稳定主题生成?

我正在使用这个语料库(http://pastebin.com/WptkKVF0)和这个停用词列表(http://pastebin.com/LL7dqLcj),这是我的代码:

0 投票
2 回答
3227 浏览

python - 我应该使用哪个 gensim 语料库类来加载 LDA 转换的语料库?- Python

如何从 python 加载 LDA 转换的语料库gensim我试过的:

上面的代码将输出:

如果我想加载保存的 LDA 转换语料库,gensim我应该使用哪个类来加载?

我试过使用corpora.MmCorpus.load(),它没有给我转换后的语料库的相同输出,如上所示:

0 投票
2 回答
951 浏览

python - Gensim 主题打印错误/问题

全部,

这是对我在此线程中回复的内容的重新发布。尝试在 gensim 中打印 LSI 主题时,我得到了一些完全错误的结果。这是我的代码:

这会将以下内容打印到控制台。

我希望能够打印出@2er0在这里所做的主题,但我得到了这样的结果。请参见下文并注意打印的第二个项目是一个元组,我不知道它来自哪里。data.txt 是一个包含多个段落的文本文件。就这些。

对此的任何想法都会很棒!亚当

0 投票
1 回答
1787 浏览

python - 如何使用 csr_matrix 初始化 gensim 语料库变量?

我有 X 作为我使用 scikit 的 tfidf 矢量化器获得的 csr_matrix,而 y 是一个数组

我的计划是使用 LDA 创建功能,但是,我找不到如何使用 X 作为 csr_matrix 来初始化 gensim 的语料库变量。换句话说,我不想下载 gensim 文档中显示的语料库,也不想将 X 转换为密集矩阵,因为它会消耗大量内存并且计算机可能会挂起。

简而言之,我的问题如下,

  1. 鉴于我有一个代表整个语料库的 csr_matrix (稀疏),你如何初始化一个 gensim 语料库?
  2. 如何使用 LDA 提取特征?
0 投票
1 回答
7294 浏览

python - 我们可以使用自制的语料库使用 gensim 进行 LDA 训练吗?

我必须应用 LDA(潜在狄利克雷分配)从我收集的 20,000 个文档的数据库中获取可能的主题。

我如何使用这些文档而不是其他可用的语料库(如布朗语料库或英语维基百科)作为训练语料库?

你可以参考这个页面。