上图来自于介绍 Doc2Vec 的论文Distributed Representations of Sentences and Documents 。我正在使用 Gensim 的 Word2Vec 和 Doc2Vec 实现,它们很棒,但我正在寻找一些问题的清晰度。
- 对于给定的 doc2vec 模型
dvm
,什么是dvm.docvecs
?我的印象是,它是包含所有词嵌入和段落向量的平均或连接向量d
。这是正确的,还是d? - 假设
dvm.docvecs
不是d
,可以自己访问 d 吗?如何? - 作为奖励,如何
d
计算?论文只说:
在我们的段落向量框架中(参见图 2),每个段落都映射到一个唯一向量,由矩阵 D 中的一列表示,每个单词也映射到一个唯一向量,由矩阵 W 中的一列表示。
感谢任何线索!