“gensim”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

11638 浏览

python - 如何将句子加载到 Python gensim 中？

我正在尝试在 Python 中使用自然语言处理库中的word2vec模块。gensim

文档说要初始化模型：

gensim输入句子的格式是什么？我有原始文本

我需要发布哪些额外的处理word2fec？

更新：这是我尝试过的。当它加载句子时，我什么也得不到。

2013-12-03T22:25:56.047

0 投票

3 回答

3717 浏览

python - Python中的“逐字逐句”语法是什么意思？

我从gensim 教程页面中看到了以下脚本片段。

下面 Python 脚本中逐字逐句的语法是什么？

python gensim

2014-01-06T15:21:46.333

0 投票

2 回答

2380 浏览

python - NLTK - 自动翻译相似词

大局目标：我正在使用 NLTK 和 Gensim 在 Python 中制作产品评论的 LDA 模型。我想在不同的 n-gram 上运行它。

问题：使用 unigrams 一切都很好，但是当我使用 bigrams 运行时，我开始获得具有重复信息的主题。例如，主题 1 可能包含：['good product', 'good value']，主题 4 可能包含：['great product', 'great value']。对于人类来说，这些显然是在传达相同的信息，但显然'good product'是'great product'不同的二元组。我如何通过算法确定它'good product'并且'great product'足够相似，以便我可以将其中一个的所有出现转换为另一个（可能是语料库中出现频率更高的那个）？

我尝试过的：我玩过 WordNet 的 Synset 树，但运气不佳。事实证明，这good是一个“形容词”，但却great是一个“形容词卫星”，因此返回None路径相似性。我的思考过程是做以下事情：

词性标注句子
使用这些 POS 找到正确的 Synset
计算两个 Synset 的相似度
如果它们高于某个阈值，则计算两个单词的出现次数
用出现次数最多的词替换出现次数最少的词

不过，理想情况下，我想要一个可以确定这一点good并且在我的语料库great中相似的算法（也许在同时出现的意义上），以便它可以扩展到不属于一般英语的单词，但是出现在我的语料库中，因此它可以扩展到 n-gram（可能和在我的语料库中是同义词，或者和是相似的）。Oracleterriblefeature engineeringfeature creation

关于算法的任何建议，或让 WordNet synset 表现的建议？

python algorithm nltk wordnet gensim

2014-01-06T16:42:42.963

0 投票

3 回答

25375 浏览

python - 主题分布：在python中做LDA后如何查看哪个文档属于哪个主题

我能够从 gensim 运行 LDA 代码，并获得前 10 个主题及其各自的关键字。

现在我想更进一步，通过查看它们聚集到每个主题中的文档来了解 LDA 算法的准确性。这在gensim LDA中可能吗？

基本上我想做这样的事情，但是在 python 中并使用 gensim。

LDA 与 topicmodels，我如何查看不同文档属于哪些主题？

python nltk lda gensim

2014-01-08T00:30:08.667

0 投票

1 回答

722 浏览

python - 使用 Gensim 包进行 LDA 主题建模时出现 IndexError

我总共有 54892 个文档，其中包含 360331 个唯一标记。字典长度为 88。

每当我运行此脚本时，我都会收到此错误：

我在网上查了一下，有人提到我可能与计算机的 RAM 有关。我正在使用具有 4 GB RAM 的 Windows 7 32 位。我应该在脚本中进行哪些更改？

请帮忙！

python lda topic-modeling gensim

2014-01-23T16:09:48.800

0 投票

1 回答

1831 浏览

python - 在语义上对文档中的词进行无监督聚类

我想根据语义相似性对单词进行聚类。目前我有一个文档列表，其中包含检测到的名词短语。我想从文档中获得的这些名词中进行聚类，并在语义上对它们进行无监督聚类？

我看过 wordnet 和 gensim 库。关于哪个可以真正帮助根据语义相似性获得所需的词组的任何建议？

python cluster-analysis semantics wordnet gensim

2014-01-28T11:04:12.667

0 投票

1 回答

636 浏览

algorithm - 寻找主题的潜在语义分析

我正在学习潜在语义分析（LSA），我能够构建术语文档矩阵并找到它的 SVD 分解。如何从该分解中获取主题？

例如，在 gensim 中：

algorithm svd gensim

2014-01-29T18:57:53.557

0 投票

3 回答

1941 浏览

python - 使用 gensim 的 Python LSI 不工作

我正在尝试根据主题行对电子邮件进行分类，并且我必须获取 LSI 才能训练分类器。我正在获取 tf-idf 并进一步尝试获取 LSI 模型。但是，它根本不对任何文件进行任何处理/写入。我的代码如下：

我得到输出直到“TFIDF 完成！” 但随后程序不会为 LSI 返回任何内容。对于上述内容，我正在浏览 500 个主题行。任何关于可能出错的想法将不胜感激！谢谢。

记录的数据如下：

python text-processing gensim

2014-02-01T13:28:14.550

0 投票

5 回答

9160 浏览

python - 将 scikit-learn 向量化器和词汇表与 gensim 一起使用

我正在尝试使用 gensim 主题模型回收 scikit-learn 矢量化器对象。原因很简单：首先，我已经有大量的矢量化数据；其次，我更喜欢 scikit-learn 矢量化器的界面和灵活性；第三，尽管使用 gensim 进行主题建模非常快，但Dictionary()根据我的经验，计算它的字典 ( ) 相对较慢。

之前已经提出过类似的问题，尤其是这里和这里，桥接解决方案是 gensim 的Sparse2Corpus()函数，它将 Scipy 稀疏矩阵转换为 gensim 语料库对象。

但是，这种转换没有利用vocabulary_sklearn 向量化器的属性，它保存了单词和特征 id 之间的映射。这种映射对于打印每个主题的判别词是必要的（id2word在 gensim 主题模型中，描述为“从词 id（整数）到词（字符串）的映射”）。

我知道 gensim 的Dictionary对象比 scikit 的vect.vocabulary_（一个简单的 Python ）更复杂（计算速度也更慢dict）......

在 gensim 模型中使用vect.vocabulary_的任何想法？id2word

一些示例代码：

python scikit-learn topic-modeling gensim

2014-02-04T12:25:15.810

0 投票

4 回答

6062 浏览

python-2.7 - 过滤掉在 gensim 字典中恰好出现一次的标记

gensim 字典对象有一个非常好的过滤功能，可以删除出现在少于一组文档中的标记。但是，我希望删除在corpus中恰好出现一次的标记。有谁知道一种快速简便的方法来做到这一点？

python-2.7 gensim

2014-02-27T20:18:06.213

问题标签 [gensim]

Reference