5

Doc2Vec 图 2

上图来自于介绍 Doc2Vec 的论文Distributed Representations of Sentences and Documents 。我正在使用 Gensim 的 Word2Vec 和 Doc2Vec 实现,它们很棒,但我正在寻找一些问题的清晰度。

  1. 对于给定的 doc2vec 模型dvm,什么是dvm.docvecs?我的印象是,它是包含所有词嵌入段落向量的平均或连接向量d。这是正确的,还是d?
  2. 假设dvm.docvecs不是d,可以自己访问 d 吗?如何?
  3. 作为奖励,如何d计算?论文只说:

在我们的段落向量框架中(参见图 2),每个段落都映射到一个唯一向量,由矩阵 D 中的一列表示,每个单词也映射到一个唯一向量,由矩阵 W 中的一列表示。

感谢任何线索!

4

1 回答 1

5

Doc2Vec 模型的docvecs属性包含训练期间看到的“文档标签”的所有训练向量。(这些在源代码中也称为“doctags”。)

在最简单的情况下,类似于段落向量论文,每个文本示例(段落)只有一个序列号整数 ID 作为其“标签”,从 0 开始。这将是docvecs对象的索引model.docvecs.doctag_syn0——numpy 数组是与段落向量论文摘录中的(大写) D基本相同。

(Gensim 还支持使用字符串标记作为文档标签,每个文档使用多个标签,并在许多训练文档中重复标签。对于字符串标签,如果有的话,它们会被docvecsdict映射到接近末尾的索引model.docvecs.doctags。)

于 2017-01-19T00:14:55.497 回答