问题标签 [doc2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何将 Gensim doc2vec 与预训练的词向量一起使用?
我最近遇到了对 Gensim 的 doc2vec 补充。如何在 doc2vec 中使用预训练的词向量(例如在 word2vec 原始网站中找到的)?
还是 doc2vec 从它用于段落向量训练的相同句子中获取词向量?
谢谢。
python - 如何在 gensim 中加载预训练模型并用它训练 doc2vec?
我正在准备一个我已经训练过的 word2vec 模型。我已将其序列化为 CSV 文件:
我想知道的是如何加载该词向量模型gensim
并使用它来训练段落或 doc2vec 模型。
这个Doc2Vec 教程说我可以以“”的形式加载模型,# C text format
但我不知道这实际上意味着什么。首先是什么是“C 文本格式”,但更重要的是:
- 如何加载我的 word2vec 模型并将其用于 doc2vec 培训?
如何从我的 word2vec 模型构建词汇表?
classification - 获取 doc2vec 中未见段落的段落表示
我想使用 genism doc2vec 模型进行分类任务。但是,似乎 doc2vec 的 gensim 实现需要在训练模型之前查看所有文档(训练和测试)以构建词汇表。否则,如果您想获取构建词汇表时不存在的文档的文档向量,则会出现 keyerror。我想知道我的理解是否正确!在实践中,人们在训练时无法访问测试数据。
有没有办法在测试时更新词汇表以便能够获得测试文档的文档表示?
gensim - 如何从 gensim Doc2Vec 中获取词向量?
我训练了一个 gensim.models.doc2vec.Doc2Vec 模型
d2v_model = Doc2Vec(sentences, size=100, window=8, min_count=5, workers=4) 我可以通过 docvec = d2v_model.docvecs[0] 获取文档向量
如何从训练有素的模型中获取词向量?
python - numpy 数组在词向量上的分组和聚合问题
我的熊猫数据框看起来像这样:
我正在尝试运行 doc2vec 实现,我希望能够按电影 id 进行分组,并获取 wordEmbeddingVector 中向量的总和,并计算求和向量与我尝试做的输入向量之间的余弦相似度
但它似乎运行了很长时间,我认为我可能做错了什么。所以我试图删除相似度函数,只进行分组和求和。但这似乎也没有完成(现在1小时以上)我做错了什么还是真的那么慢?我的数据框中有 135392 行,所以它不是很大。
非常感激!
python - 如何从 gensim 0.11.1 中的 Doc2Vec 获取文档向量?
有没有办法在 gensim 0.11.1 版本中从 Doc2Vec 获取未见和已见文档的文档向量?
例如,假设我在 1000,000 上训练模型 - 我可以获得这 1000 个文档的文档向量吗?
有没有办法获得由
相同词汇表组成的看不见文档的文档向量?
gensim - gensim doc2vec中的size参数代表什么
在doc2vec
函数中,有一个参数叫做size
.
我知道,size
是输出向量的维度,如果size=400
它比 if 更好地捕获内容size=100
。
但是,我不明白,size
代表什么?这是否意味着 Doc2Vec 将从一个单词中查找多远,以预测下一个单词?或者是什么意思?
非常感谢,
python - 什么是文档向量,Doc2Vec 中的段落 id
我正在阅读一篇关于 doc2vec 的论文。但我真的不明白什么是段落 id 以及它是如何训练的......
我试图用 gensim 包实现情感分析任务并成功,但不知道它是如何工作的......
论文说 Document 向量的训练就像另一个词一样。但它是如何处理的?是和word2vec训练同时训练的吗?如果它被视为一个单词,它如何包含段落的信息?什么是句子标签,最让我困惑的是矩阵 D ...
有人可以向我解释这个过程吗?我完全搞砸了...请帮助我...谢谢
python - 有什么方法可以验证 Doc2Vec/Word2Vec 深度学习模型的性能?
我正在使用 Doc2Vec 和 Word2Vec 深度学习算法(来自 Gensim 的 Doc2Vec API 描述)。更多描述在这里
目前我对使用model.n_similarity(wordSet1, wordSet2)
基本上计算两组单词之间的余弦相似度的方法感兴趣。
我对验证模型性能的任何方式都感兴趣,不仅在n_similiarity()
功能上,而且在总体上模型可以提供多么准确或真实的结果。由于它执行深度学习,我不知道是否有任何方法可以知道它的性能如何。
是否有任何我应该查找然后使用的技术,或者是否有一个有结果的数据集我应该比较?
任何建议都非常感谢。谢谢你。
python - Gensim Doc2Vec - 将语料库句子传递给 Doc2Vec 函数
我使用MySentences
该类从目录中的所有文件中提取句子,并使用这些句子来训练word2vec模型。我的数据集未标记。
现在我想用那个类来制作一个doc2vec模型。我阅读了 Doc2Vec参考页。Doc2Vec()
函数获取句子作为参数,但它不接受上述句子变量并返回错误:
问题是什么?该参数的正确类型是什么?
更新 :
我认为,未标记的数据是问题所在。似乎 doc2vec 需要标记数据。