问题标签 [gensim]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
gensim - 更新 gensim word2vec 模型
我在 gensim 中有一个 word2vec 模型,训练了超过 98892 个文档。对于句子数组中不存在的任何给定句子(即我训练模型的集合),我需要用该句子更新模型,以便下次查询它会给出一些结果。我这样做是这样的:
并将其打印为日志:
现在,当我用类似的 new_sentence 查询大多数肯定(as model.most_similar(positive=new_sentence)
)时,它会给出错误:
这表明“冷”这个词不是我训练这件事的词汇的一部分(我是对的)吗?
所以问题是:如何更新模型,以便给出给定新句子的所有可能相似之处?
python - 如何使用 gensim 的 word2vec 模型与 python 计算句子相似度
根据Gensim Word2Vec,我可以使用 gensim 包中的 word2vec 模型来计算两个单词之间的相似度。
例如
然而,word2vec 模型无法预测句子相似度。我在 gensim 中找到了具有句子相似性的 LSI 模型,但是,它似乎不能与 word2vec 模型相结合。我拥有的每个句子的语料库长度都不是很长(少于 10 个单词)。那么,有没有什么简单的方法可以实现目标呢?
lda - gensim lda 模型 - 用看不见的单词调用语料库的更新
我正在尝试使用gensim's lda
模型。如果我用给定的语料库创建 lda 模型,然后我想用一个新的语料库更新它,其中包含在第一个语料库中看不到的单词,我该怎么做?当我尝试调用lda_model.update(new_corpus)
时,我收到以下错误:
我使用仅包含 57 个单词的语料库初始化 lda_model,这就是我们看到大小57
限制的原因。然后我想用更多单词的语料库对其进行更新,但失败了。
我该如何解决这个问题?我希望能够用带有新词的新语料库更新我的 lda 模型,这可能吗?
gensim - Word2Vec:使用的窗口大小的影响
我正在尝试在非常短的短语(5 克)上训练 word2vec 模型。由于每个句子或示例都很短,我相信我可以使用的窗口大小最多为 2。我试图了解这么小的窗口大小对学习模型的质量有何影响,以便我能够理解我的模型是否学到了一些有意义的东西。我尝试在 5-gram 上训练 word2vec 模型,但看起来学习的模型不能很好地捕捉语义等。
我正在使用以下测试来评估模型的准确性: https ://code.google.com/p/word2vec/source/browse/trunk/questions-words.txt
我使用 gensim.Word2Vec 来训练模型,这是我的准确度分数的片段(使用 2 的窗口大小)
我还尝试运行此处概述的 demo-word-accuracy.sh 脚本,窗口大小为 2,但准确性也很差:
然而 word2vec 网站声称它可以在这些任务上获得约 60% 的准确度。因此,我想深入了解这些超参数(如窗口大小)的影响以及它们如何影响学习模型的质量。
python - 文档相似度 Gensim
我正在尝试从同一组 10,000 个文档中获取 10,000 个文档列表的相关文档。我正在使用两种算法进行测试:gensim lsi 和 gensim 相似度。两者都给出了可怕的结果。我该如何改进它?
python - 带有 NLTK 和 GenSim 的 Python
你好 GenSim 社区。我正在使用 Python 2.7.5 和 Sublime Text 2。我需要安装 Gensim。我尝试过 Enthought,但它不支持 NLTK。我需要在 Sublime Text 2 中导入 GenSim。我尝试了所有命令行指令,但没有成功。有人可以告诉我如何在 ST2 中获取 GenSim 吗?我已经安装了 Scipy 和 Numpy。我已尝试按照 Radim Rehurek 网页、easy_install 和 pip install 等上的说明进行操作。
python - LDA for Html Documents in Genism
I have bunch of html documents 10-15 on which i have to apply LDA algorithm in gensim I am stuck on creating the corpus as i don't understand how i design a corpus for a collection of html documents. The example on the site shows the creation of them on wikipedia compressed file .xml.bz
Anyone please guide me how can i apply LDA on bunch of html documents. Thanks in advance
python - Python Gensim:如何使用 LDA 模型计算文档相似度?
我有一个训练有素的 LDA 模型,我想从我训练模型的语料库中计算两个文档之间的相似度得分。在学习了所有 Gensim 教程和功能之后,我仍然无法理解它。有人可以给我一个提示吗?谢谢!
python - 是否有任何用于动态主题模型的高效 python 库,最好是扩展 Gensim?
我正在尝试使用主题模型对 Twitter 流数据进行建模。Gensim 是一个易于使用的解决方案,其简单性令人印象深刻。它对 LSI 有真正的在线实现,但对 LDA 没有。对于 twitter 等不断变化的内容流,动态主题模型是理想的选择。有没有什么办法,甚至是一种破解——一种实现甚至一种策略,我可以使用 Gensim 来达到这个目的?
是否有任何其他 python 实现(最好)从 Gensim 派生或独立?我更喜欢python,因为我想尽快开始,但是如果有一些工作的最佳解决方案,请提及。
谢谢。
gensim - 如何获取有关 HDP 的特定主题
一旦我使用 lda[doc] 获得文档的主题,我就可以使用 lda.print_topic(topic_id) 打印每个主题。
检索 HdpModel 主题的等效方法是什么?
我能想到的一种方法是使用 hdp_to_lda 创建 LdaModel。有没有更直接的方法?