问题标签 [gensim]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2274 问题

0 投票

6 回答

29151 浏览

gensim - 更新 gensim word2vec 模型

我在 gensim 中有一个 word2vec 模型，训练了超过 98892 个文档。对于句子数组中不存在的任何给定句子（即我训练模型的集合），我需要用该句子更新模型，以便下次查询它会给出一些结果。我这样做是这样的：

并将其打印为日志：

现在，当我用类似的 new_sentence 查询大多数肯定（as model.most_similar(positive=new_sentence)）时，它会给出错误：

这表明“冷”这个词不是我训练这件事的词汇的一部分（我是对的）吗？

所以问题是：如何更新模型，以便给出给定新句子的所有可能相似之处？

gensim word2vec

2014-03-01T22:08:11.110

0 投票

14 回答

116298 浏览

python - 如何使用 gensim 的 word2vec 模型与 python 计算句子相似度

根据Gensim Word2Vec，我可以使用 gensim 包中的 word2vec 模型来计算两个单词之间的相似度。

例如

然而，word2vec 模型无法预测句子相似度。我在 gensim 中找到了具有句子相似性的 LSI 模型，但是，它似乎不能与 word2vec 模型相结合。我拥有的每个句子的语料库长度都不是很长（少于 10 个单词）。那么，有没有什么简单的方法可以实现目标呢？

2014-03-02T16:04:53.743

0 投票

1 回答

2384 浏览

lda - gensim lda 模型 - 用看不见的单词调用语料库的更新

我正在尝试使用gensim's lda模型。如果我用给定的语料库创建 lda 模型，然后我想用一个新的语料库更新它，其中包含在第一个语料库中看不到的单词，我该怎么做？当我尝试调用lda_model.update(new_corpus)时，我收到以下错误：

我使用仅包含 57 个单词的语料库初始化 lda_model，这就是我们看到大小57限制的原因。然后我想用更多单词的语料库对其进行更新，但失败了。

我该如何解决这个问题？我希望能够用带有新词的新语料库更新我的 lda 模型，这可能吗？

lda gensim

2014-03-05T11:20:51.800

0 投票

2 回答

25226 浏览

gensim - Word2Vec：使用的窗口大小的影响

我正在尝试在非常短的短语（5 克）上训练 word2vec 模型。由于每个句子或示例都很短，我相信我可以使用的窗口大小最多为 2。我试图了解这么小的窗口大小对学习模型的质量有何影响，以便我能够理解我的模型是否学到了一些有意义的东西。我尝试在 5-gram 上训练 word2vec 模型，但看起来学习的模型不能很好地捕捉语义等。

我正在使用以下测试来评估模型的准确性： https ://code.google.com/p/word2vec/source/browse/trunk/questions-words.txt

我使用 gensim.Word2Vec 来训练模型，这是我的准确度分数的片段（使用 2 的窗口大小）

我还尝试运行此处概述的 demo-word-accuracy.sh 脚本，窗口大小为 2，但准确性也很差：

然而 word2vec 网站声称它可以在这些任务上获得约 60% 的准确度。因此，我想深入了解这些超参数（如窗口大小）的影响以及它们如何影响学习模型的质量。

gensim word2vec

2014-03-08T17:07:51.013

0 投票

3 回答

2797 浏览

python - 文档相似度 Gensim

我正在尝试从同一组 10,000 个文档中获取 10,000 个文档列表的相关文档。我正在使用两种算法进行测试：gensim lsi 和 gensim 相似度。两者都给出了可怕的结果。我该如何改进它？

python nlp gensim

2014-03-09T14:25:43.487

0 投票

1 回答

1244 浏览

python - 带有 NLTK 和 GenSim 的 Python

你好 GenSim 社区。我正在使用 Python 2.7.5 和 Sublime Text 2。我需要安装 Gensim。我尝试过 Enthought，但它不支持 NLTK。我需要在 Sublime Text 2 中导入 GenSim。我尝试了所有命令行指令，但没有成功。有人可以告诉我如何在 ST2 中获取 GenSim 吗？我已经安装了 Scipy 和 Numpy。我已尝试按照 Radim Rehurek 网页、easy_install 和 pip install 等上的说明进行操作。

python sublimetext2 nltk gensim

2014-03-09T18:47:40.547

0 投票

1 回答

272 浏览

python - LDA for Html Documents in Genism

I have bunch of html documents 10-15 on which i have to apply LDA algorithm in gensim I am stuck on creating the corpus as i don't understand how i design a corpus for a collection of html documents. The example on the site shows the creation of them on wikipedia compressed file .xml.bz

Anyone please guide me how can i apply LDA on bunch of html documents. Thanks in advance

python gensim

2014-03-12T19:06:18.353

0 投票

3 回答

26394 浏览

python - Python Gensim：如何使用 LDA 模型计算文档相似度？

我有一个训练有素的 LDA 模型，我想从我训练模型的语料库中计算两个文档之间的相似度得分。在学习了所有 Gensim 教程和功能之后，我仍然无法理解它。有人可以给我一个提示吗？谢谢！

python nlp lda gensim

2014-03-16T06:51:25.237

0 投票

3 回答

3671 浏览

python - 是否有任何用于动态主题模型的高效 python 库，最好是扩展 Gensim？

我正在尝试使用主题模型对 Twitter 流数据进行建模。Gensim 是一个易于使用的解决方案，其简单性令人印象深刻。它对 LSI 有真正的在线实现，但对 LDA 没有。对于 twitter 等不断变化的内容流，动态主题模型是理想的选择。有没有什么办法，甚至是一种破解——一种实现甚至一种策略，我可以使用 Gensim 来达到这个目的？

是否有任何其他 python 实现（最好）从 Gensim 派生或独立？我更喜欢python，因为我想尽快开始，但是如果有一些工作的最佳解决方案，请提及。

谢谢。

python lda text-analysis topic-modeling gensim

2014-03-18T02:52:52.060

0 投票

1 回答

1155 浏览

gensim - 如何获取有关 HDP 的特定主题

一旦我使用 lda[doc] 获得文档的主题，我就可以使用 lda.print_topic(topic_id) 打印每个主题。

检索 HdpModel 主题的等效方法是什么？

我能想到的一种方法是使用 hdp_to_lda 创建 LdaModel。有没有更直接的方法？

gensim

2014-03-26T22:47:51.747

1 2 3 4 5 6 7 8 9 10

问题标签 [gensim]

Reference