问题标签 [gensim]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Gensim 字典实现
我只是对 gensim 字典的实现感到好奇。我有以下代码:
我查看了 deerwester.dict 文件,它看起来像这样:
但是,以下代码
产生这个:
所以我的问题是,因为我没有看到 .dict 文件中的实际单词,所以存储在那里的所有十六进制值是什么?这是某种超级压缩格式吗?我很好奇,因为我觉得如果是的话,我应该考虑从现在开始使用它。
algorithm - 如何生成相关文本?
我想要做的是,获得一个文本训练集(自然语言),并使用自动创建的文本来增加这个集,试图模仿文本内容。我正在使用词袋假设,顺序无关紧要,语法无关紧要,我只想创建包含与基本主题相关的单词的文本。
现在我正在使用Latent Dirichlet Allocation将我的文档分类为主题分布,平均我的集合的主题分布,并从这些主题分布中生成文档。
我想知道两件事:
1-有没有更好的方法来做到这一点?
2-我可以用不属于我的集合域的文本训练 LDA,而不会污染我的主题:例如。我想增加的集合有关于政治的文本。我可以用任何类型的文本(汽车、时尚、音乐)训练我的模型,并对我的政治文本库进行分类,得到它的主题分布,并从这个分布中生成类似的文本。
我正在使用 python 2.7 和 gensim。
python - 如何解决加载 gensim 语料库中的 unpicklingerror?- Python
我可以将序列化的语料库保存到foobar.mm
其中,但是当我尝试加载它时,它给出了UnpicklingError
. 加载字典似乎很好。任何人都知道如何解决这个问题?为什么会发生这种情况?
python - gensim的矩阵市场格式中的转置参数 - python
在gensim
库中,有一个MmReader
类可以将矩阵市场格式文件转换为 python 对象。有时需要对矩阵进行转置,因此在 中引入了转置参数MmReader
。
但是,我很困惑为什么在行525-526
和https://github.com/piskvorky/gensim/blob/develop/gensim/matutils.py567-568
时,术语文档值和 id的反转发生在.transposed == False
任何熟悉信息检索中的术语文档矩阵的人都可以启发我吗?
python - 在 gensim python 中使用 google word2vec .bin 文件
我正在尝试通过将预训练的 .bin 文件从 google word2vec 站点(freebase-vectors-skipgram1000.bin.gz)加载到 word2vec 的 gensim 实现中开始。模型加载良好,
使用 ..
并创建一个
但是当我运行最相似的功能时。它无法在词汇表中找到单词。我的错误代码如下。
有什么想法我哪里出错了吗?
python - 构建字典而不加载所有文本
我是 Python 和 Gensim 的新手。我目前正在阅读有关gensim
(http://radimrehurek.com/gensim/tut1.html)的教程之一。我对这行代码有两个问题:
1)mycorpus.txt
在 Dictionary 开始构建之前文件是否已完全加载到内存中?该教程明确表示不:
但是当我在我的活动监视器中监视 RAM 使用情况时,Python 进程为 3 gig 文件命中 1 gig(我中途终止了进程)。这很奇怪,因为我假设我的 3 gig 文本文件的字典会小得多。有人可以为我澄清这一点吗?
2)我怎样才能重新编码这一行,以便我可以在每一行读取之间做一些事情?我想打印到屏幕上查看进度。这是我的尝试:
这不起作用,因为字典正在为每一行重新初始化。
我意识到这些都是非常n00b的问题 - 感谢您的帮助和耐心。
python - 无法安装gensim
尝试安装 gensim (使用 pip install 和 setup install )时,它给了我这个错误:
我该如何解决这个问题
lda - Gensim 中的主题模型评估
我一直在尝试使用Gensim进行 LDA 主题建模。我似乎在 Gensim 中找不到任何主题模型评估工具,它可以报告主题模型在保留的评估文本上的困惑,从而有助于后续微调 LDA 参数(例如主题数量)。如果有人能对我如何在 Gensim 中执行主题模型评估有所了解,将不胜感激。这个问题也已发布在metaoptimize上。
python - Gensim的LSI模型中如何获取主题分数?
我一直在 gensim 中使用 LsiModel 对 10000 封邮件的语料库中的主题进行建模。我能够获取每个主题的单词和单词分数并将它们存储在一个文件中。我曾尝试使用print_topics()和show_topics()但都只返回与这些词相关的词和分数。但我还需要它输出到日志文件的主题分数,我希望这些值在一个变量中。就像下面的这个示例日志输出一样:
我需要这些分数在一个变量中。
包中是否有任何方法可以获取这些输出?请帮忙。
python - 使用 gensim 了解 LDA 实现
我试图了解 Python 中的 gensim 包如何实现潜在狄利克雷分配。我正在执行以下操作:
定义数据集
删除停用词后,我创建了字典和语料库:
然后我定义了 LDA 模型。
然后我打印主题:
我无法从这个结果中理解很多。它是否提供了每个单词出现的概率?另外,主题#1,主题#2等是什么意思?我期待的东西或多或少像最重要的关键字。
我已经检查了gensim 教程,但它并没有太大帮助。
谢谢。