问题标签 [gensim]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
11638 浏览

python - 如何将句子加载到 Python gensim 中?

我正在尝试在 Python 中使用自然语言处理库中的word2vec模块。gensim

文档说要初始化模型:

gensim输入句子的格式是什么?我有原始文本

我需要发布哪些额外的处理word2fec


更新:这是我尝试过的。当它加载句子时,我什么也得不到。

0 投票
3 回答
3717 浏览

python - Python中的“逐字逐句”语法是什么意思?

我从gensim 教程页面中看到了以下脚本片段。

下面 Python 脚本中逐字逐句的语法是什么?

0 投票
2 回答
2380 浏览

python - NLTK - 自动翻译相似词

大局目标:我正在使用 NLTK 和 Gensim 在 Python 中制作产品评论的 LDA 模型。我想在不同的 n-gram 上运行它。

问题:使用 unigrams 一切都很好,但是当我使用 bigrams 运行时,我开始获得具有重复信息的主题。例如,主题 1 可能包含:['good product', 'good value'],主题 4 可能包含:['great product', 'great value']。对于人类来说,这些显然是在传达相同的信息,但显然'good product''great product'不同的二元组。我如何通过算法确定它'good product'并且'great product'足够相似,以便我可以将其中一个的所有出现转换为另一个(可能是语料库中出现频率更高的那个)?

我尝试过的:我玩过 WordNet 的 Synset 树,但运气不佳。事实证明,这good是一个“形容词”,但却great是一个“形容词卫星”,因此返回None路径相似性。我的思考过程是做以下事情:

  1. 词性标注句子
  2. 使用这些 POS 找到正确的 Synset
  3. 计算两个 Synset 的相似度
  4. 如果它们高于某个阈值,则计算两个单词的出现次数
  5. 用出现次数最多的词替换出现次数最少的词

不过,理想情况下,我想要一个可以确定这一点good并且在我的语料库great中相似的算法(也许在同时出现的意义上),以便它可以扩展到不属于一般英语的单词,但是出现在我的语料库中,因此它可以扩展到 n-gram(可能和在我的语料库中是同义词,或者和是相似的)。Oracleterriblefeature engineeringfeature creation

关于算法的任何建议,或让 WordNet synset 表现的建议?

0 投票
3 回答
25375 浏览

python - 主题分布:在python中做LDA后如何查看哪个文档属于哪个主题

我能够从 gensim 运行 LDA 代码,并获得前 10 个主题及其各自的关键字。

现在我想更进一步,通过查看它们聚集到每个主题中的文档来了解 LDA 算法的准确性。这在gensim LDA中可能吗?

基本上我想做这样的事情,但是在 python 中并使用 gensim。

LDA 与 topicmodels,我如何查看不同文档属于哪些主题?

0 投票
1 回答
722 浏览

python - 使用 Gensim 包进行 LDA 主题建模时出现 IndexError

我总共有 54892 个文档,其中包含 360331 个唯一标记。字典长度为 88。

每当我运行此脚本时,我都会收到此错误:

我在网上查了一下,有人提到我可能与计算机的 RAM 有关。我正在使用具有 4 GB RAM 的 Windows 7 32 位。我应该在脚本中进行哪些更改?

请帮忙!

0 投票
1 回答
1831 浏览

python - 在语义上对文档中的词进行无监督聚类

我想根据语义相似性对单词进行聚类。目前我有一个文档列表,其中包含检测到的名词短语。我想从文档中获得的这些名词中进行聚类,并在语义上对它们进行无监督聚类?

我看过 wordnet 和 gensim 库。关于哪个可以真正帮助根据语义相似性获得所需的词组的任何建议?

0 投票
1 回答
636 浏览

algorithm - 寻找主题的潜在语义分析

我正在学习潜在语义分析(LSA),我能够构建术语文档矩阵并找到它的 SVD 分解。如何从该分解中获取主题?

例如,在 gensim 中:

0 投票
3 回答
1941 浏览

python - 使用 gensim 的 Python LSI 不工作

我正在尝试根据主题行对电子邮件进行分类,并且我必须获取 LSI 才能训练分类器。我正在获取 tf-idf 并进一步尝试获取 LSI 模型。但是,它根本不对任何文件进行任何处理/写入。我的代码如下:

我得到输出直到“TFIDF 完成!” 但随后程序不会为 LSI 返回任何内容。对于上述内容,我正在浏览 500 个主题行。任何关于可能出错的想法将不胜感激!谢谢。

记录的数据如下:

0 投票
5 回答
9160 浏览

python - 将 scikit-learn 向量化器和词汇表与 gensim 一起使用

我正在尝试使用 gensim 主题模型回收 scikit-learn 矢量化器对象。原因很简单:首先,我已经有大量的矢量化数据;其次,我更喜欢 scikit-learn 矢量化器的界面和灵活性;第三,尽管使用 gensim 进行主题建模非常快,但Dictionary()根据我的经验,计算它的字典 ( ) 相对较慢。

之前已经提出过类似的问题,尤其是这里这里,桥接解决方案是 gensim 的Sparse2Corpus()函数,它将 Scipy 稀疏矩阵转换为 gensim 语料库对象。

但是,这种转换没有利用vocabulary_sklearn 向量化器的属性,它保存了单词和特征 id 之间的映射。这种映射对于打印每个主题的判别词是必要的(id2word在 gensim 主题模型中,描述为“从词 id(整数)到词(字符串)的映射”)。

我知道 gensim 的Dictionary对象比 scikit 的vect.vocabulary_(一个简单的 Python )更复杂(计算速度也更慢dict)......

在 gensim 模型中使用vect.vocabulary_的任何想法?id2word

一些示例代码:

0 投票
4 回答
6062 浏览

python-2.7 - 过滤掉在 gensim 字典中恰好出现一次的标记

gensim 字典对象有一个非常好的过滤功能,可以删除出现在少于一组文档中的标记。但是,我希望删除在corpus中恰好出现一次的标记。有谁知道一种快速简便的方法来做到这一点?