我有一组用户及其内容(每个用户一个包含该用户推文的文档)。我计划为每个用户使用某个大小为 N 的分布式矢量表示。一种方法是在 twitter 数据上使用预先训练好的词向量,然后对它们进行平均以获得用户的分布式向量。我打算使用 doc2vec 来获得更好的结果。但我不太确定我是否理解Distributed Representations of Sentences and Documents 中给出的 DM 模型。
我知道我们为每个段落分配一个向量,在预测下一个单词时,我们正在使用它,然后反向传播错误以更新段落向量和词向量。如何使用它来预测新段落的段落向量?
编辑:任何用于 gensim 计算新文档段落向量的玩具代码将不胜感激。