问题标签 [gensim]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何将句子加载到 Python gensim 中?
我正在尝试在 Python 中使用自然语言处理库中的word2vec
模块。gensim
文档说要初始化模型:
gensim
输入句子的格式是什么?我有原始文本
我需要发布哪些额外的处理word2fec
?
更新:这是我尝试过的。当它加载句子时,我什么也得不到。
python - Python中的“逐字逐句”语法是什么意思?
我从gensim 教程页面中看到了以下脚本片段。
下面 Python 脚本中逐字逐句的语法是什么?
python - NLTK - 自动翻译相似词
大局目标:我正在使用 NLTK 和 Gensim 在 Python 中制作产品评论的 LDA 模型。我想在不同的 n-gram 上运行它。
问题:使用 unigrams 一切都很好,但是当我使用 bigrams 运行时,我开始获得具有重复信息的主题。例如,主题 1 可能包含:['good product', 'good value']
,主题 4 可能包含:['great product', 'great value']
。对于人类来说,这些显然是在传达相同的信息,但显然'good product'
是'great product'
不同的二元组。我如何通过算法确定它'good product'
并且'great product'
足够相似,以便我可以将其中一个的所有出现转换为另一个(可能是语料库中出现频率更高的那个)?
我尝试过的:我玩过 WordNet 的 Synset 树,但运气不佳。事实证明,这good
是一个“形容词”,但却great
是一个“形容词卫星”,因此返回None
路径相似性。我的思考过程是做以下事情:
- 词性标注句子
- 使用这些 POS 找到正确的 Synset
- 计算两个 Synset 的相似度
- 如果它们高于某个阈值,则计算两个单词的出现次数
- 用出现次数最多的词替换出现次数最少的词
不过,理想情况下,我想要一个可以确定这一点good
并且在我的语料库great
中相似的算法(也许在同时出现的意义上),以便它可以扩展到不属于一般英语的单词,但是出现在我的语料库中,因此它可以扩展到 n-gram(可能和在我的语料库中是同义词,或者和是相似的)。Oracle
terrible
feature engineering
feature creation
关于算法的任何建议,或让 WordNet synset 表现的建议?
python - 主题分布:在python中做LDA后如何查看哪个文档属于哪个主题
我能够从 gensim 运行 LDA 代码,并获得前 10 个主题及其各自的关键字。
现在我想更进一步,通过查看它们聚集到每个主题中的文档来了解 LDA 算法的准确性。这在gensim LDA中可能吗?
基本上我想做这样的事情,但是在 python 中并使用 gensim。
python - 使用 Gensim 包进行 LDA 主题建模时出现 IndexError
我总共有 54892 个文档,其中包含 360331 个唯一标记。字典长度为 88。
每当我运行此脚本时,我都会收到此错误:
我在网上查了一下,有人提到我可能与计算机的 RAM 有关。我正在使用具有 4 GB RAM 的 Windows 7 32 位。我应该在脚本中进行哪些更改?
请帮忙!
python - 在语义上对文档中的词进行无监督聚类
我想根据语义相似性对单词进行聚类。目前我有一个文档列表,其中包含检测到的名词短语。我想从文档中获得的这些名词中进行聚类,并在语义上对它们进行无监督聚类?
我看过 wordnet 和 gensim 库。关于哪个可以真正帮助根据语义相似性获得所需的词组的任何建议?
algorithm - 寻找主题的潜在语义分析
我正在学习潜在语义分析(LSA),我能够构建术语文档矩阵并找到它的 SVD 分解。如何从该分解中获取主题?
例如,在 gensim 中:
python - 使用 gensim 的 Python LSI 不工作
我正在尝试根据主题行对电子邮件进行分类,并且我必须获取 LSI 才能训练分类器。我正在获取 tf-idf 并进一步尝试获取 LSI 模型。但是,它根本不对任何文件进行任何处理/写入。我的代码如下:
我得到输出直到“TFIDF 完成!” 但随后程序不会为 LSI 返回任何内容。对于上述内容,我正在浏览 500 个主题行。任何关于可能出错的想法将不胜感激!谢谢。
记录的数据如下:
python - 将 scikit-learn 向量化器和词汇表与 gensim 一起使用
我正在尝试使用 gensim 主题模型回收 scikit-learn 矢量化器对象。原因很简单:首先,我已经有大量的矢量化数据;其次,我更喜欢 scikit-learn 矢量化器的界面和灵活性;第三,尽管使用 gensim 进行主题建模非常快,但Dictionary()
根据我的经验,计算它的字典 ( ) 相对较慢。
之前已经提出过类似的问题,尤其是这里和这里,桥接解决方案是 gensim 的Sparse2Corpus()
函数,它将 Scipy 稀疏矩阵转换为 gensim 语料库对象。
但是,这种转换没有利用vocabulary_
sklearn 向量化器的属性,它保存了单词和特征 id 之间的映射。这种映射对于打印每个主题的判别词是必要的(id2word
在 gensim 主题模型中,描述为“从词 id(整数)到词(字符串)的映射”)。
我知道 gensim 的Dictionary
对象比 scikit 的vect.vocabulary_
(一个简单的 Python )更复杂(计算速度也更慢dict
)......
在 gensim 模型中使用vect.vocabulary_
的任何想法?id2word
一些示例代码:
python-2.7 - 过滤掉在 gensim 字典中恰好出现一次的标记
gensim 字典对象有一个非常好的过滤功能,可以删除出现在少于一组文档中的标记。但是,我希望删除在corpus中恰好出现一次的标记。有谁知道一种快速简便的方法来做到这一点?